# An√°lisis de Aplicaciones M√≥viles para Maximizar la Audiencia y los Ingresos

*Introducci√≥n:*

Este proyecto se centra en el an√°lisis de datos para una empresa que desarrolla aplicaciones m√≥viles gratuitas para Android e iOS. El principal motor de ingresos de la empresa son los anuncios dentro de las aplicaciones, y la cantidad de usuarios que utilizan estas aplicaciones tiene un impacto directo en sus ingresos. El objetivo fundamental de este proyecto es comprender qu√© tipos de aplicaciones tienen el potencial de atraer a una mayor audiencia, lo que, a su vez, aumentar√≠a la exposici√≥n a los anuncios y, por lo tanto, los ingresos. A trav√©s del an√°lisis de datos, buscaremos identificar patrones y tendencias que ayuden a los desarrolladores a tomar decisiones informadas sobre el tipo de aplicaciones que deben crear para maximizar su √©xito en el mercado de aplicaciones m√≥viles.

In [1]:
from csv import reader

### The Google Play data set ###
opened_file = open('googleplaystore.csv')
read_file = reader(opened_file)
android = list(read_file)
android_header = android[0]
android = android[1:]

### The App Store data set ###
opened_file = open('AppleStore.csv')
read_file = reader(opened_file)
ios = list(read_file)
ios_header = ios[0]
ios = ios[1:]

In [2]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') # adds a new (empty) line after each row

    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

In [3]:
print(android_header)
print('\n')
explore_data(android, 5, 8)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Paper flowers instructions', 'ART_AND_DESIGN', '4.4', '167', '5.6M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'March 26, 2017', '1.0', '2.3 and up']


['Smoke Effect Photo Maker - Smoke Editor', 'ART_AND_DESIGN', '3.8', '178', '19M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'April 26, 2018', '1.1', '4.0.3 and up']


['Infinite Painter', 'ART_AND_DESIGN', '4.1', '36815', '29M', '1,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'June 14, 2018', '6.1.61.1', '4.2 and up']




In [4]:
print(ios_header)
print('\n')
explore_data(ios, 12, 15)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['359917414', 'Solitaire', '101943296', 'USD', '0.0', '679055', '9673', '4.5', '4.5', '4.11.2', '4+', 'Games', '38', '4', '11', '1']


['469369175', 'CSR Racing', '524803072', 'USD', '0.0', '677247', '2029', '4.5', '4.5', '4.0.1', '4+', 'Games', '37', '5', '10', '1']


['924373886', 'Crossy Road - Endless Arcade Hopper', '165471232', 'USD', '0.0', '669079', '1087', '4.5', '4.5', '1.5.4', '9+', 'Games', '38', '5', '13', '1']




In [5]:
print(android_header)
print('\n')
print(android[10472])
print(len(android_header))
print(len(android[10472]))


['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']
13
12


La columna "Category" est√° ausente, lo que afecta a las columnas siguientes, y algunos valores parecen desplazados.

In [6]:
del android[10472]

In [7]:
print(len(android))

10840


In [8]:
# verificar las apps duplicadas de Instagram en android. 
# Este es un ejemplo. 
# La aplicaci√≥n Instagram aparece cuatro veces en la lista de aplicaciones de Android. 
for app in android:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


In [9]:
# c√≥digo para concontrar aplicaciones duplicadas en android
duplicate_apps = []
unique_apps = []

for app in android:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)

# muestra la salidad del c√≥digo por pantalla
print(f"Number of duplicate apps: {len(duplicate_apps)}")
print('\n')
print(f"Examples of duplicate apps: {duplicate_apps[:15]}")

Number of duplicate apps: 1181


Examples of duplicate apps: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


Si examinas las filas que imprimimos dos celdas arriba para la aplicaci√≥n Instagram, la diferencia principal ocurre en la cuarta posici√≥n de cada fila, que corresponde al n√∫mero de rese√±as. Los n√∫meros diferentes indican que los datos se recopilaron en momentos diferentes. Podemos utilizar esto para establecer un criterio para conservar las filas. No eliminaremos las filas al azar, sino que conservaremos las filas que tengan el mayor n√∫mero de rese√±as porque cuanto mayor sea el n√∫mero de rese√±as, m√°s confiables ser√°n las calificaciones.

Para hacerlo, haremos lo siguiente:

Crearemos un diccionario donde cada clave sea el nombre √∫nico de una aplicaci√≥n y el valor sea el n√∫mero m√°s alto de rese√±as de esa aplicaci√≥n.

Utilizaremos el diccionario para crear un nuevo conjunto de datos que tendr√° solo una entrada por aplicaci√≥n (y seleccionaremos solo las aplicaciones con el mayor n√∫mero de rese√±as).

In [10]:
# Crear un diccionario donde cada clave es el nombre √∫nico de una aplicaci√≥n 
# y el valor es el mayor n√∫mero de rese√±as de esa aplicaci√≥n.
reviews_max = {}

# Recorrer el conjunto de datos de Google Play (sin incluir la fila de encabezado).
for row in android:
    name = row[0]  # Obtener el nombre de la aplicaci√≥n
    n_reviews = float(row[3])  # Obtener el n√∫mero de rese√±as como un valor de punto flotante
    
    # Verificar si el nombre ya existe como una clave en el diccionario y si el valor actual es menor que n_reviews.
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews  # Actualizar el n√∫mero de rese√±as en el diccionario
    elif name not in reviews_max:
        reviews_max[name] = n_reviews  # Crear una nueva entrada en el diccionario si el nombre no existe

# Verificar la longitud del diccionario (deber√≠a ser 9,659 entradas).
print("Longitud del diccionario reviews_max:", len(reviews_max))


Longitud del diccionario reviews_max: 9659


In [11]:
# Crear dos listas vac√≠as: android_clean y already_added
android_clean = []
already_added = []

# Recorrer el conjunto de datos de Google Play (sin incluir la fila de encabezado)
for row in android:
    name = row[0]  # Obtener el nombre de la aplicaci√≥n
    n_reviews = float(row[3])  # Obtener el n√∫mero de rese√±as como un valor de punto flotante
    
    # Verificar si n_reviews es igual al n√∫mero m√°ximo de rese√±as de la aplicaci√≥n (en el diccionario reviews_max)
    # y si el nombre de la aplicaci√≥n no est√° en already_added
    if n_reviews == reviews_max[name] and name not in already_added:
        android_clean.append(row)  # Agregar la fila completa a android_clean
        already_added.append(name)  # Agregar el nombre de la aplicaci√≥n a already_added

# Verificar la longitud de android_clean (deber√≠a ser 9,659 entradas)
print("Longitud de android_clean:", len(android_clean))

Longitud de android_clean: 9659


In [12]:
# soluci√≥n propuesta en el ejemplo
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if (reviews_max[name] == n_reviews) and (name not in already_added):
        android_clean.append(app)
        already_added.append(name) # make sure this is inside the if block

In [13]:
explore_data(android_clean, 0, 3, True)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite ‚Äì FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9659
Number of columns: 13


In [14]:
def is_english(str_a):
    for character in str_a:
        if ord(character) > 127:
            return False
    return True
print(is_english('Instagram'))  # Deber√≠a devolver True
print(is_english('Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠'))  # Deber√≠a devolver False
print(is_english('Docs To Go‚Ñ¢ Free Office Suite'))  # Deber√≠a devolver False
print(is_english('Instachat üòú'))  # Deber√≠a devolver False

True
False
False
False


In [15]:
#funci√≥n corregida
def is_english2(str_a):
    cont = 0
    for character in str_a:
        if ord(character) > 127:
            cont += 1
            if cont == 3:
                return False
    return True

In [16]:
print(is_english2('Docs To Go‚Ñ¢ Free Office Suite')) 
print(is_english2('Instachat üòú')) 
print(is_english2('Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠'))

True
True
False


In [17]:
# funci√≥n corregida sugerida por dataquest
def is_english(string):
    non_ascii = 0
    
    for character in string:
        if ord(character) > 127:
            non_ascii += 1
    
    if non_ascii > 3:
        return False
    else:
        return True

print(is_english('Docs To Go‚Ñ¢ Free Office Suite'))
print(is_english('Instachat üòú'))

True
True


### Separar las apps gratis de las pagadas

In [23]:
print(android_header)
print(android_header.index('Price'))

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']
7


In [20]:
print(ios_header)
print(ios_header.index('price'))

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']
4


In [24]:
# separaremos las applicaciones android gratuitas de las pagadas
# se usa como referencia las lista final de las aplicaciones en ingl√©s. 
android_final = []
ios_final = []

for app in android_english:
    price = app[7]
    if price == '0':
        android_final.append(app)
        
for app in ios_english:
    price = app[4]
    if price == '0.0':
        ios_final.append(app)
        
print(len(android_final))
print(len(ios_final))



8848
3203


### Aplicaciones m√°s usadas

El objetivo de nuestro an√°lisis es determinar qu√© tipos de aplicaciones son m√°s propensos a atraer a m√°s usuarios, ya que nuestros ingresos dependen en gran medida de la cantidad de personas que utilizan nuestras aplicaciones.

Para minimizar riesgos y costos, nuestra estrategia de validaci√≥n para una idea de aplicaci√≥n consta de tres pasos:

1. Construir una versi√≥n m√≠nima de la aplicaci√≥n para Android y agregarla a Google Play.
2. Si la aplicaci√≥n tiene una buena respuesta de los usuarios, la desarrollamos a√∫n m√°s.
3. Si la aplicaci√≥n es rentable despu√©s de seis meses, tambi√©n construimos una versi√≥n para iOS y la agregamos a la App Store.

Dado que nuestro objetivo final es agregar la aplicaci√≥n en ambas plataformas, necesitamos encontrar perfiles de aplicaciones que tengan √©xito en ambos mercados. Por ejemplo, un perfil que podr√≠a funcionar bien en ambos mercados podr√≠a ser una aplicaci√≥n de productividad que utilice la gamificaci√≥n.

Para comenzar nuestro an√°lisis, vamos a identificar los g√©neros m√°s comunes en cada mercado. Para hacerlo, construiremos una tabla de frecuencia para la columna "prime_genre" del conjunto de datos de la App Store, y las columnas "Genres" y "Category" del conjunto de datos de Google Play.

In [25]:
# Para la App Store
def freq_table(dataset, index):
    freq_dict = {}
    total_apps = len(dataset)
    
    for row in dataset:
        value = row[index]
        if value in freq_dict:
            freq_dict[value] += 1
        else:
            freq_dict[value] = 1
    
    freq_percentages = {}
    for key in freq_dict:
        percentage = (freq_dict[key] / total_apps) * 100
        freq_percentages[key] = percentage
    
    return freq_percentages

# Generar tabla de frecuencia para la columna "prime_genre" de la App Store
app_store_freq = freq_table(ios, -5)

# Para Google Play
def freq_table_google(dataset, index):
    freq_dict = {}
    total_apps = len(dataset)
    
    for row in dataset:
        value = row[index]
        if value in freq_dict:
            freq_dict[value] += 1
        else:
            freq_dict[value] = 1
    
    freq_percentages = {}
    for key in freq_dict:
        percentage = (freq_dict[key] / total_apps) * 100
        freq_percentages[key] = percentage
    
    return freq_percentages

# Generar tabla de frecuencia para la columna "Genres" de Google Play
google_play_genres_freq = freq_table_google(android, 9)

# Generar tabla de frecuencia para la columna "Category" de Google Play
google_play_category_freq = freq_table_google(android, 1)