# Analisis de rentabilidad de Apps Moviles 

Este proyecto analisaremos que tipo de aplicaciones tienen mas descargas basados en que la restabilidad viene dada de la cantidad de anuncios que se muestran en las apliaciones. 

El objetivo sera identificar las categorias o tipo de aplicaciones que tienen mayor numero de descargas y/o usuarios para tener una visión de las proximas aplicaciones a desarrollar.

In [1]:
import csv
def open_data(csv_file, encoding='utf8'):
    opened_file = open(csv_file)
    read_file = csv.reader(opened_file)
    dataset = list(read_file)
    return dataset

## Leer y almacenar los conjuntos de datos

A continuación procedemos a leer ambos conjuntos de datos, usando la función "open_data". 

AppleStore.csv: Un conjunto de datos que contiene datos sobre aproximadamente 7000 aplicaciones de iOS de la App Store; los datos se recopilaron en julio de 2017. 

googleplaystore.csv: Un conjunto de datos que contiene información sobre aproximadamente 10 000 aplicaciones de Android de Google Play; los datos se recopilaron en agosto de 2018. 

In [2]:
apple_store = open_data("AppleStore.csv")
google_play_store = open_data("googleplaystore.csv")

## Explorar los datos

- Imprimir las primeras 5 filas 
- Conocer el numero total de filas 
- Conocer el numero total de columnas

In [3]:
def explore_data(dataset, end, start = 1):
    header = dataset[0]
    for row in dataset[1:end]:
        print(row)
        print("\n")
    print("Columnas: " + str(header))
    print("\n")
    print("Numero de columnas: " + str(len(header)) + ("\n") + "Numero de filas: " + str(len(dataset[1:])))

In [4]:
explore_apple_store = explore_data(apple_store, 5)

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


['420009108', 'Temple Run', '65921024', 'USD', '0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1', '1']


Columnas: ['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


Numero de columnas: 16
Numero de filas: 7197


In [5]:
explore_google_play_store = explore_data(google_play_store, 5)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Columnas: ['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


Numero de columnas: 13
Numero de filas: 10841


## Columnas que usaremos para el objetivo del proyecto: 

### Para la AppleStore.csv
- prime_genre: género principal
- price: Precio
- rating_count_tot: recuentos de calificaciones de usuarios (para todas las versiones)

### Para la googleplaystore.csv
- type: Pagado o Gratis
- category: Categoría a la que pertenece la aplicación
- reviews: Number of user reviews for the app (as when scraped)

## Econtrar filas con datos faltantes en el conjunto de datos
- Comprobar si hay filas con datos faltantes
- Eliminar las filas con datos faltantes

In [6]:
def explore_error_data(dataset):
    header = dataset[0]
    for row in dataset[1:]:
        if len(row) != len(header):
            return dataset.index(row)

In [7]:
error_row_google = explore_error_data(google_play_store)
del google_play_store[error_row_google]

In [8]:
error_row_apple = explore_error_data(apple_store)
print(error_row_apple)

None


## Separar las applicaciones gratuitas en ambos conjuntos
- Identificar las apps gratuitas
- Crear un nuevo conjunto con solo apps gratuitas

In [9]:
def extract_free_apps(dataset, index_col):
    free_apps = []
    for row in dataset[1:]:
        if row[index_col] == "Free" or row[index_col] == "0.0":
            free_apps.append(row)
    return free_apps

In [10]:
free_apps_google = extract_free_apps(google_play_store, 6)
print(len(free_apps_google))

10039


In [11]:
free_apps_apple = extract_free_apps(apple_store, 4)

## Identificar filas duplicadas y almacenar en una lista separada

- Detectar apps duplicadas
- Almacenar los nombres de las apps duplicadas en una lista

In [12]:
def detect_duplicates_row(dataset, index_col):
    duplicados = []
    uniques = []
    for row in dataset[1:]:
        if row[index_col] in uniques:
            duplicados.append(row[index_col])
        else:
            uniques.append(row[index_col])
    return duplicados
        

In [13]:
duplicados_google = detect_duplicates_row(free_apps_google, 0)
print(len(duplicados_google))

1135


In [14]:
duplicados_apple = detect_duplicates_row(free_apps_apple, 1)
print(len(duplicados_apple))

2


## Eliminar filas duplicadas

Limpiaremos los duplicados y dejaremos la versión mas reciente de la app. 

Para google:
  - Dejaremos la fila donde "Reviews" sea mayor
Mientras mas reviews tiene la app mas reciente sera la versión    


Para Apple: 
  - Dejaremos la fila donde "rating_count_tot" sea mayor
   


In [15]:
def create_pares(dataset, index_name, index_reviews_or_rating):
    pares_duplicados = {}
    rows_uniques = []
    for row in dataset[1:]:
        reviws_or_rating = int(row[index_reviews_or_rating])
        name = row[index_name]
        if name not in pares_duplicados:
                pares_duplicados[name] = reviws_or_rating
        if name in pares_duplicados and reviws_or_rating >= pares_duplicados[name]:
                pares_duplicados[name] = reviws_or_rating
    
    return pares_duplicados
                
            
            

In [16]:
def delete_row(dataset, pares_duplicados):
    dataset = dataset
    new_data = []
    for key, value in pares_duplicados.items():
            name = key 
            reviews = str(value)
            for row in dataset[1:]:
                if name in row and reviews not in row:
                    index_delete = dataset.index(row)
                    del dataset[index_delete]
    return dataset

In [17]:
pares_google = create_pares(free_apps_google, 0,3)
google_clean = delete_row(free_apps_google, pares_google)
print(len(google_clean))

9142


In [18]:
pares_apple = create_pares(free_apps_apple, 1, 5)
apple_clean = delete_row(free_apps_apple, pares_apple)
print(len(detect_duplicates_row(free_apps_apple, 1)))

0


## Eliminar apps que no esten en Inglés

A continuación vamos a eliminar todas las filas donde el "name" o "track_name" no este en escrito en inglés. 

In [19]:
def delete_row_non_ingles(dataset, index_name):
    for row in dataset[1:]:
        contador = 0 
        name = row[index_name]
        for char in name:
            if int(ord(char))>127:
                contador += 1
        
        if contador >= 3:
            index_delete = dataset.index(row)
            del dataset[index_name]
            contador = 0
       
    return dataset

In [20]:
google_clean_ingles = delete_row_non_ingles(google_clean, 0)
explore_data(google_clean_ingles, 5)

['REG - Check the regnumber, find information about Swedish vehicles', 'AUTO_AND_VEHICLES', '3.9', '3971', '3.6M', '100,000+', 'Free', '0', 'Everyone', 'Auto & Vehicles', 'July 30, 2018', '2.493', '4.4 and up']


['CityBus Lviv', 'AUTO_AND_VEHICLES', '4.6', '534', '5.7M', '10,000+', 'Free', '0', 'Everyone', 'Auto & Vehicles', 'July 8, 2018', '1.9.1', '4.0.3 and up']


['CDL Practice Test 2018 Edition', 'AUTO_AND_VEHICLES', '4.9', '7774', '17M', '100,000+', 'Free', '0', 'Everyone', 'Auto & Vehicles', 'July 3, 2018', '1.7', '4.2 and up']


['ezETC (ETC balance inquiry, meter trial, real-time traffic)', 'AUTO_AND_VEHICLES', '4.3', '38846', '8.6M', '1,000,000+', 'Free', '0', 'Everyone', 'Auto & Vehicles', 'July 28, 2018', '2.20 Build 02', '4.1 and up']


Columnas: ['Restart Navigator', 'AUTO_AND_VEHICLES', '4.0', '1403', '201k', '100,000+', 'Free', '0', 'Everyone', 'Auto & Vehicles', 'August 26, 2014', '1.0.1', '2.2 and up']


Numero de columnas: 13
Numero de filas: 9087


In [21]:
apple_clean_ingles = delete_row_non_ingles(apple_clean, 1)
explore_data(apple_clean, 5)

['521922264', 'PIP Camera-Selfie Cam&Pic Collage&Photo Editor', '74172416', 'USD', '0.0', '8454', '26', '4.5', '5.0', '3.2.2', '4+', 'Photo & Video', '40', '5', '2', '1']


['883237617', 'My Emma :)', '136275968', 'USD', '0.0', '8412', '149', '4.5', '4.5', '2.7.0', '4+', 'Games', '38', '5', '1', '1']


['1072950932', 'Spin It Rich! Casino Slots: Free Slot Machines', '150571008', 'USD', '0.0', '8402', '1277', '4.5', '4.5', '1.0.7541', '12+', 'Games', '38', '5', '7', '1']


['1009200976', 'Futurama: Game of Drones', '385683456', 'USD', '0.0', '8394', '414', '4.5', '4.5', '1.12.0', '12+', 'Games', '37', '5', '45', '1']


Columnas: ['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


Numero de columnas: 16
Numero de filas: 3199


## Determinar los generemos mas comunes en ambos juntos. 

A continuación vamos a generar una tabla de frecuencia de cada conjuntos analizando el genero de la aplicación:
    
### Para goole tenemos dos columnas que contienen el mismo dato 
- Category
- Genres


### para google usaremos la columna "prime_genre"

Usaremos "prime_genres"para determinar los generos mas frecuentes



Como nuestro objetivo al final es poder crear apps que sean rentables en ambas stores, analizaremos cada conjuntos e identificaremos los generos mas comúnes y que coincidan en ambos conjuntos

In [22]:
def creat_freq_table(dataset, col):
    genres = {}
    for row in dataset[1:]:
        if row[col] not in genres:
            genres[row[col]] = 1
        else:
            genres[row[col]] += 1
            
            
    return genres

In [23]:
freq_genre_google = creat_freq_table(google_clean_ingles, 9)
freq_category_google = creat_freq_table(google_clean_ingles, 1)

In [24]:
freq_genre_apple = creat_freq_table(apple_clean_ingles, -5)
print(freq_genre_apple)

{'Photo & Video': 118, 'Games': 1815, 'Health & Fitness': 61, 'Business': 15, 'Entertainment': 273, 'Sports': 54, 'Shopping': 84, 'News': 47, 'Travel': 45, 'Education': 115, 'Productivity': 34, 'Social Networking': 96, 'Finance': 68, 'Lifestyle': 83, 'Music': 42, 'Utilities': 88, 'Weather': 21, 'Food & Drink': 35, 'Reference': 11, 'Navigation': 17, 'Book': 61, 'Catalogs': 8, 'Medical': 8}


## Convirtiendo las tablas de frecuencia en listas para poder ordener y visualizar rapidamente los datos mas frecuentes.

Las tablas de frecuencia son muy utiles pero si analizamos grandes cantidades de datos con valores unicos, ordenar los valores mas frecuentes puede ser tedioso, poco practico y propenso a errores. 

A continuación convertiremos nuestras tablas de frecuencia en listas ordenadas de mayor a menor (frecuencia, genero)


In [25]:
def ord_freq_table(freq_table):
    list_freq = []
    for key, value in freq_table.items():
        tuple_freq = (value,key)
        list_freq.append(tuple_freq)
    return sorted(list_freq, reverse=True)

In [26]:
freq_ord_google_genre = ord_freq_table(freq_genre_google)
freq_ord_google_category = ord_freq_table(freq_category_google)
print(freq_ord_google_genre[0:10])
print("\n")
print(freq_ord_google_category[0:10])

[(751, 'Tools'), (567, 'Entertainment'), (498, 'Education'), (437, 'Business'), (360, 'Productivity'), (358, 'Lifestyle'), (343, 'Medical'), (332, 'Finance'), (328, 'Sports'), (304, 'Health & Fitness')]


[(1713, 'FAMILY'), (876, 'GAME'), (752, 'TOOLS'), (437, 'BUSINESS'), (360, 'PRODUCTIVITY'), (359, 'LIFESTYLE'), (343, 'MEDICAL'), (332, 'FINANCE'), (321, 'SPORTS'), (304, 'HEALTH_AND_FITNESS')]


In [27]:
freq_ord_apple = ord_freq_table(freq_genre_apple)
print(freq_ord_apple[0:10])

[(1815, 'Games'), (273, 'Entertainment'), (118, 'Photo & Video'), (115, 'Education'), (96, 'Social Networking'), (88, 'Utilities'), (84, 'Shopping'), (83, 'Lifestyle'), (68, 'Finance'), (61, 'Health & Fitness')]


## Generos frecuentes en ambos conjuntos de datos:
1. Games: first in apple and second in google

El resto de los datos hay mucha disparidad en la oposición que ocupa en cada conjunto de datos

### En el caso de la apple en la columna prime_genre

Ordemamos los datos en función de las mas frecuentes:
1. Games: 1815
2. Entertainment: 273
3. Photo & Video: 118


Para la apple las apliacciones mas frecuentes son los juegos y con mucha diferencia en comparación con el resto de generos.

De forma general las aplicaciones que buscan entretenimiento son las mas frecuentes en la AppStore. 

Mas adelante analizaremos si eso se traducen en reviews de usuarios para determinar las aplicaciones con mas usuarios activos y terminar de recomendar un perfil. 

### En el caso de google en la columna Category

1. Family: 1713
2. Game: 876

Recopilando las categorias oficiales de la google play store: https://support.google.com/googleplay/android-developer/answer/9859673?hl=es-419#zippy=%2Capps%2Cjuegos

Notamos que no existe como tal una categoria denominada "Familia" por lo que pasamos a inspeccionar las aplicaciones de este tipo de categorias. 

In [28]:
def find_columns_category(dataset, category):
    apps_category = []
    for row in dataset:
        if row[1] == category:
            apps_category.append(row)
    return apps_category    
google_category_family = find_columns_category(google_clean_ingles, "FAMILY")
print(google_category_family[:5])

[['Candy Bomb', 'FAMILY', '4.4', '42145', '20M', '10,000,000+', 'Free', '0', 'Everyone', 'Casual;Brain Games', 'July 4, 2018', '2.9.3181', '4.0.3 and up'], ['Jewels Crush- Match 3 Puzzle', 'FAMILY', '4.4', '14774', '19M', '1,000,000+', 'Free', '0', 'Everyone', 'Casual;Brain Games', 'July 23, 2018', '1.9.3901', '4.0.3 and up'], ['Coloring & Learn', 'FAMILY', '4.4', '12753', '51M', '5,000,000+', 'Free', '0', 'Everyone', 'Educational;Creativity', 'July 17, 2018', '1.49', '4.0.3 and up'], ['Mahjong', 'FAMILY', '4.5', '33983', '22M', '5,000,000+', 'Free', '0', 'Everyone', 'Puzzle;Brain Games', 'August 2, 2018', '1.24.3181', '4.0.3 and up'], ['Super ABC! Learning games for kids! Preschool apps', 'FAMILY', '4.6', '20267', '46M', '1,000,000+', 'Free', '0', 'Everyone', 'Educational;Education', 'July 16, 2018', '1.1.6.7', '4.1 and up']]


Como podemos ver la categoria "FAMILY" almacena una variedad muy amplia de apps que contienen diversos genereros. Para este caso vale la pena determinar cuales son los generos en la categoria "FAMILY" mas frecuentes. 

En cuanto a la categoria "GAME" los generemos van a depender del genero de los juegos. Vale la pena conocer cuales son los generos mas comunes dentro de la categoria de "Games"

A continuación vamos a: 
1. Crear una tabala de frecuencia para las aplicaciones que tienen la categoria FAMILY y ordenar los datos para visualizar facilmente
2. Crear una tabala de frecuencia para las aplicaciones que tienen la categoria GAMES y ordenar los datos para visualizar facilmente 

Esto proceso lo hicimos anteriormente cuando queriamos conocer las categorias mas frecuentes.

In [29]:
def freq_table_genero_in_category(dataset, category, index_col_category, index_col_genre):
    genres_top_in_category = {}
    for row in dataset[1:]:
        if row[index_col_category] == category and row[index_col_genre] not in genres_top_in_category:
            genres_top_in_category[row[index_col_genre]] = 1
        elif row[index_col_category] == category and row[index_col_genre] in genres_top_in_category:
            genres_top_in_category[row[index_col_genre]] +=1
    return genres_top_in_category
            
            

In [30]:
genres_freq_in_category_family = freq_table_genero_in_category(google_clean_ingles, "FAMILY", 1, -4)
genres_ord_in_category_family = ord_freq_table(genres_freq_in_category_family)
print(genres_ord_in_category_family[:5])

[(463, 'Entertainment'), (388, 'Education'), (177, 'Simulation'), (134, 'Casual'), (78, 'Puzzle')]


In [31]:
genres_freq_in_category_games = freq_table_genero_in_category(google_clean_ingles, "GAME", 1, -4)
genres_ord_in_category_games = ord_freq_table(genres_freq_in_category_games)
print(genres_ord_in_category_games[:5])

[(278, 'Action'), (165, 'Arcade'), (88, 'Racing'), (61, 'Adventure'), (40, 'Card')]


### Para el caso del conjunto de google:

Los generos mas frecuentes en las categorias mas frecuentes son:
1. Familily: 1713
    1. Entertainmen: 463
    2. Education: 388
2. Game: 876
    1. Action: 278
    2. Arcade: 165

De igual forma sabemos que a nivel general los generos mas comunes son:
1. Tools: 751
2. Entertainment: 567
3. Education:498
    
### Para el caso del conjunto de apple:
1. Games: 1815
2. Entertainment: 273
3. Photo & Video: 118

Si consideramos que el objetivo es hacer aplicaciones donde se prueben primero en la google store y en caso de funcionar y atraer muchos usuarios, pasar a producción en la apple store, lo conveniente es que el genero sea frecuente en ambas stores. 

Hay que tener en cuenta que "Game" en google es una categoria, mientras que en appe es un genero. 

Como podemos ver en en analisis de google, hay muchos generos dentro de la categoria "GAME", sabemos que "Action" es el mas frecuente pero en apple no podemos ver esta división. 

Desde luego los games son apps de las mas frecuentes en ambas store, pero seria dificl identificar que tipo de juegos funcionan mejor en ambos conjuntos. 

En la google Store son muy frecuentes las apps de tipo "Tools", de caracter practico. 

"Entertainment" es un genero común en ambas store y es muy frecuente, podria ser un buen perfil. 

Antes de poder confirmar "Entertainment" es el perfil adecuado, hay que validar si este genero tienen muchas reviews o un buen rating según el caso.

#### Para google store

Identificaremos cual es el numero maximo de reviews que recibio cualquier app que pertenezca al genero de "Entertainment" y lo compararemos con el numero maximo de reviews de todos los generos.

#### Para Apple Store

Identificaremos cual es el numero maximo de rating que recibio cualquier app que pertenezca al genero de "Entertainment" y lo compararemos con el numero maximo de rating de todos los generos.

In [45]:
def compare_max_genre_entertainment_vs_any(dataset, index_col, index_genre):
    any_genre_reviews = []
    entertainment_genre_reviews = []
    for row in dataset[1:]:
        genre = row[index_genre]
        if genre == "Entertainment":
            entertainment_genre_reviews.append(int(row[index_col]))
        else:
            any_genre_reviews.append(int(row[index_col]))
    
    return "valor maximo de reviews en cualquier genero: " + str(max(any_genre_reviews)) + " : " + "valor maximo del genero Entertainment: " + str(max(entertainment_genre_reviews))

In [46]:
google_entertainment = compare_max_genre_entertainment_vs_any(google_clean_ingles, 3, -4)
print(google_entertainment)

valor maximo de reviews en cualquier genero: 78158306 : valor maximo del genero Entertainment: 7168735


In [47]:
apple_entertainment = compare_max_genre_entertainment_vs_any(apple_clean_ingles, 5, -5)
print(apple_entertainment)

valor maximo de reviews en cualquier genero: 8454 : valor maximo del genero Entertainment: 8311


Para la apple store, podemos confirmar que el genero "Entertainment" tiene un rating muy bueno comparando con el valor maximo identificado en cualquier categoria. 

Para la google store, identificamos que hay mucha diferencia entre el valor maximo de todos los generos y el valor maximo del genero "Entertainment"

En este caso vamos a comprobar si hay otros generos que se acercan al valor maximo encontrado en todos los generos. 


In [62]:
def sorted_reviews_in_genres_google(dataset):
    reviews = []
    for row in dataset[1:]:
        reviews.append((int(row[3]), row[-4]))
    return sorted(reviews, reverse = True)

In [65]:
sorted_reviews_google_genres = sorted_reviews_in_genres_google(google_clean_ingles)
print(sorted_reviews_google_genres[:10])

[(78158306, 'Social'), (69119316, 'Communication'), (69119316, 'Communication'), (66577446, 'Social'), (56646578, 'Communication'), (44893888, 'Strategy'), (42916526, 'Tools'), (27725352, 'Arcade'), (27725352, 'Arcade'), (25655305, 'Video Players & Editors')]


Podemos confirmar que el genero "Entertainment" no es el mas exitoso dentro de la google store. 

### Los generos con mas exito a nivel de reviews son:

1. Social
2. Comunication
4. Strategy
3. tools 

Si analisamos los generos "Social" and "Strategy" siguen siendo aplicaciones con fines divertidos y entretenidos. 

Como el objetivo es hacer una app que funcione muy bien en ambas store, recomendaria 2 perfiles. 

#### 1. Una aplicación de tipo social gamificada. Por ejemplo una red social con recompensas por retos y desafios donde potencie la interactividad entre los usuarios. 

##### 2. Una herramienta practica que involucre entretenimiento. Un ejemplo puede ser una app que genere filtros de fotos que se puedan usar para redes sociales o compartir en apps de tipo comunicación.