# Data analysis to help developers understand what type of apps are likely to attract more users.

<br>

**Introduction to the Project**



In today's mobile development landscape, it is crucial to understand which types of applications attract more users in both Android and Apple ecosystems. With the goal of providing valuable information to developers, this project focuses on data analysis to identify common characteristics among the applications that receive a higher number of downloads and engagement.

1. **What Does the Project Entail?**

    This data analysis combines information from various sources, such as Google Play Store and iTunes App Store, along with usage and performance metrics. Using statistical techniques and machine learning algorithms, patterns and trends are identified to indicate which types of applications perform better in each platform.

2. **Project Objective**

    The primary objective of this project is to provide developers with precise information about the characteristics that resonate best with users on Android and iOS. By understanding better what types of applications perform well in terms of downloads, engagement, and retention, developers can make more informed decisions for the design and optimization of their own apps.

Lo primero es la recopilar y analizar datos sobre aplicaciones móviles disponibles en Google Play y App Store.

Para evitar gastar recursos en la recopilación de nuevos datos, primero debemos tratar de ver si podemos encontrar datos existentes relevantes sin costo alguno. Afortunadamente, aquí hay dos conjuntos de datos que parecen adecuados para nuestros objetivos:

<br>

Un conjunto de datos contiene datos de aproximadamente 10,000 aplicaciones de **Android de Google Play**; los datos se recopilaron en agosto de 2018. 

Un conjunto de datos contiene datos de aproximadamente 7,000 aplicaciones de **iOS de la App Store**; los datos se recopilaron en julio de 2017. 

Vamos a abrir y a explorar estos conjuntos de datos con la función `explore_data()`

Parámetros:

- `dataset`: Una lista de listas que representa el conjunto de datos.

- `start`: Un entero que indica el índice inicial del segmento a mostrar.

- `end`: Un entero que indica el índice final (exclusivo) del segmento a mostrar.

- `rows_and_columns` (opcional): Un booleano con valor predeterminado False. Si es True, imprimirá el número de filas y columnas.

In [1]:
! pwd

/home/ion/Formacion/git_repo_klone/albertjimrod/Python


In [2]:
! ls -ls 

total 304
268 -rw-rw-r-- 1 ion ion 272175 ene 23 18:02  00_For_Loops_Conditionals.ipynb
 20 -rw-rw-r-- 1 ion ion  18343 ene 23 18:08 'Analyzing Mobile App Data.ipynb'
  4 drwxrwxr-x 2 ion ion   4096 ene 23 18:07  datasets
  4 -rw-rw-r-- 1 ion ion    159 ene 23 18:00  enlace_DQ
  4 -rw-rw-r-- 1 ion ion    538 ene 23 18:01  README.md
  4 -rw-rw-r-- 1 ion ion    618 ene 23 16:02  Untitled.ipynb


In [3]:
from csv import reader

opened_ios = open('datasets/AppleStore.csv')
opened_android = open('datasets/googleplaystore.csv')

readed_ios = reader(opened_ios)
readed_android = reader(opened_android)

data_ios = list(readed_ios)
data_android = list(readed_android)

In [4]:
def explore_data(dataset, start, end, rows_and_columns = False):
    offset = 1
    cnt = 1
    columns = len(dataset[0])
    
    if rows_and_columns == True:
        print("columns ",columns , dataset[0])
        print("\n")
        
        for row in dataset[offset+start:end+offset]:
            print("row:",cnt, row)
            print("\n")
            cnt +=1
    else:
        for row in dataset[offset+start:end+offset]:
            print(row)
            print("\n")

In [5]:
explore_data(data_ios, 0, 3, True)

columns  16 ['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


row: 1 ['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


row: 2 ['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


row: 3 ['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']




In [6]:
explore_data(data_android, 0, 3, True)

columns  13 ['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


row: 1 ['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


row: 2 ['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


row: 3 ['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']




### Diccionario de datos de IOS

|||
|:--|:--|
|**id**| App ID|
|**track_name**| App Name|
|**size_bytes**| Size (in Bytes)|
|**currency**| Currency Type|
|**price**| Price amount|
|**rating_count_tot**| User Rating counts (for all version)|
|**rating_count_ver**| User Rating counts (for current version)|
|**user_rating**| Average User Rating value (for all version)|
|**user_rating_ver**| Average User Rating value (for current version) |
|**ver**| Latest version code|
|**cont_rating**| Content Rating|
|**prime_genre**| Primary Genre|
|**sup_devices.num**| Number of supporting devices|
|**ipadSc_urls.num**| Number of screenshots showed for display|
|**lang.num**| Number of supported languages|
|**vpp_lic**| Vpp Device Based Licensing Enabled|
||_________________________________________________________________________________________________________________________|

### Diccionario de datos de Android

|||
|:--|:--|
|**App**| Application name|
|**Category**| Category the app belongs to|
|**Rating**| Overall user rating of the app (as when scraped)|
|**Reviews**| Number of user reviews for the app (as when scraped)|
|**Size**| Size of the app (as when scraped)|
|**Installs**| Number of user downloads/installs for the app (as when scraped)|
|**Type**| Paid or Free|
|**Price**| Price of the app (as when scraped)|
|**Content Rating**| Age group the app is targeted at - Children / Mature 21+ / Adult|
|**Genres**| An app can belong to multiple genres (apart from its main category). For eg, a musical family game will belong to Music, Game, Family genres.|
|**Last Updated**| Date when the app was last updated on Play Store (as when scraped)|
|**Current Ver**| Current version of the app available on Play Store (as when scraped)|
|**Android Ver**| Min required Android version (as when scraped)|
||_________________________________________________________________________________________________________________________|

Estas son las columnas que podrían ayudarnos en nuestro análisis en la busqueda en comprender qué tipo de aplicaciones es probable que atraigan a más usuarios:



### Data cleaning


**Tenemos una serie de requisitos:**

- Detectar datos inexactos y corregirlos o eliminarlos.
- Detectar y eliminar duplicados.

En nuestras empresas, únicamente creamos aplicaciones que son gratuitas en inglés, simplemente para descargar e instalar. Por lo tanto, debemos eliminar las aplicaciones que no sean gratuitas y aquellas que no estén en inglés.

**Por lo tanto, antes del análisis, realizamos una limpieza de datos que implica:**
- Corregir o eliminar datos incorrectos.
- Eliminar datos duplicados.
- Modificar datos para que se ajusten a nuestro propósito.

**Comenzamos detectando y eliminando datos incorrectos.**

El conjunto de datos de Google Play tiene un sección de discusión, y podemos ver que una de las discusiones describe <span style="color:blue">un error</span> para una fila determinada.

**Por lo tanto:**
- **Encontrar donde está el [error](https://www.kaggle.com/datasets/lava18/google-play-store-apps/discussion/66015) y eliminarlo del conjunto de datos de Google Play.**

- Lo primero es comprobar las columnas que debe de haber en todo el dataset, para ello lo que hacemos es mirar el numero de columnas.

In [7]:
explore_data(data_android, 0, 0, True)

columns  13 ['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']




In [8]:
for row in data_android[1:]:
    if len(row) != len(data_android[0]):
        print(data_android.index(row))
        print(len(row))

10473
12


Esto permite ver que en la fila **10473** el número de columnas no coincide, por lo tanto debemos eliminarla. 

In [9]:
del data_android[10473]

### Eliminación de Entradas Duplicadas

Podemos observar que hay algunas aplicaciones con entradas duplicadas

In [10]:
def remove_dupli(dataset):
    duplicate_apps = []
    unique_apps = []
    
    for app in dataset[1:]:
        name = app[0]
        if name in unique_apps:
            duplicate_apps.append(name)
        else:
            unique_apps.append(name)
            
    print("Number of duplicate apps:", len(duplicate_apps))
    print("\n")
    print("Examples of duplicate apps:""\n" + "\n",duplicate_apps[:15])

In [11]:
remove_dupli(data_android)

Number of duplicate apps: 1181


Examples of duplicate apps:

 ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


Un criterio para eliminar los duplicados:

**Cuanto mayor sea el número de reseñas, más recientes deben ser los datos!** 

En lugar de eliminar los duplicados al azar, sólo mantendremos la fila con el mayor número de reseñas y eliminaremos las demás entradas para cualquier aplicación.