<p style="font-size:35px; font-weight:bold"> An√°lisis de Informaci√≥n de Aplicaciones M√≥viles</p>

Este proyecto es parte del curso de Ciencia de Datos en Python de **DataQuest**. En √©l, se pretende formar parte de una compa√±√≠a que desarrolla aplicaciones para **Google Play** y la **App Store**, y que obtiene ingresos a partir de **anuncios desplegados** en dichas aplicaciones. Entre m√°s usuarios tenga una aplicaci√≥n, mayores ser√°n los ingresos. El objetivo es analizar informaci√≥n de aplicaciones m√≥viles para ayudar a los desarrolladores a **elegir el tipo de aplicaciones que tienen el mayor potencial de atraer usuarios**.

**Fuentes de Datos**

Hay dos fuentes gratuitas que contienen informaci√≥n relevante sobre aplicaciones m√≥viles:

- **Android**: Una base que contiene informaci√≥n de **10,000 aplicaciones** disponibles en Google Play.  
  L. Gupta, *"Google Play Store Apps,"* Feb 2019. Disponible en:  
  [https://www.kaggle.com/lava18/google-play-store-apps](https://www.kaggle.com/lava18/google-play-store-apps)

- **iOS**: Una base que contiene informaci√≥n de aproximadamente **7,000 aplicaciones** de la App Store.  
  Disponible en:  
  [https://www.kaggle.com/datasets/ramamet4/app-store-apple-data-set-10k-apps](https://www.kaggle.com/datasets/ramamet4/app-store-apple-data-set-10k-apps)


# Abrir Archivos

Se importan los archivos `googleplaystore.csv` y `AppleStore.csv` como **listas de listas**.  
Para ambos archivos, se realiza el siguiente procedimiento:

1. Se abre el archivo con `open()`.
2. Se convierte en un objeto `reader` con `reader()`.
3. Se transforma en una lista completa con `list()`.
4. Se separa la primera fila como **encabezado** y luego se elimina esa fila de los datos.

In [3]:
from csv import reader

### The Google Play data set ###
opened_file = open('googleplaystore.csv')
read_file = reader(opened_file)
android = list(read_file)
android_header = android[0]
android = android[1:]

### The App Store data set ###
opened_file = open('AppleStore.csv')
read_file = reader(opened_file)
ios = list(read_file)
ios_header = ios[0]
ios = ios[1:]

Se analiza que los t√≠tulos coincidan con el contenido.

In [5]:
android_header

['App',
 'Category',
 'Rating',
 'Reviews',
 'Size',
 'Installs',
 'Type',
 'Price',
 'Content Rating',
 'Genres',
 'Last Updated',
 'Current Ver',
 'Android Ver']

In [6]:
android[0]

['Photo Editor & Candy Camera & Grid & ScrapBook',
 'ART_AND_DESIGN',
 '4.1',
 '159',
 '19M',
 '10,000+',
 'Free',
 '0',
 'Everyone',
 'Art & Design',
 'January 7, 2018',
 '1.0.0',
 '4.0.3 and up']

In [7]:
ios_header

['',
 'id',
 'track_name',
 'size_bytes',
 'currency',
 'price',
 'rating_count_tot',
 'rating_count_ver',
 'user_rating',
 'user_rating_ver',
 'ver',
 'cont_rating',
 'prime_genre',
 'sup_devices.num',
 'ipadSc_urls.num',
 'lang.num',
 'vpp_lic']

In [8]:
ios[0]

['1',
 '281656475',
 'PAC-MAN Premium',
 '100788224',
 'USD',
 '3.99',
 '21292',
 '26',
 '4',
 '4.5',
 '6.3.5',
 '4+',
 'Games',
 '38',
 '5',
 '10',
 '1']

Observamos que los t√≠tulos de ios tienen un valor ausente al principio. Este t√≠tulo corresponde a una columna que solo tiene un contador. Por ende, se elimina eso de la lista de t√≠tulos y la primera columna de cada fila de ios. 

In [10]:
# Eliminar la primera entrada de la lista de encabezados
del ios_header[0]
# Eliminar la primera columna de cada fila en android
for row in ios:
    del row[0]

# Explorar los archivos con `explore_data()`

Para facilitar la exploraci√≥n de ambas bases de datos, definimos una funci√≥n llamada `explore_data()` que:

- Muestra un n√∫mero espec√≠fico de filas de forma legible (una por rengl√≥n).
- Tiene la opci√≥n de imprimir tambi√©n el n√∫mero total de filas y columnas.

Esta funci√≥n ser√° √∫til para revisar r√°pidamente cualquier dataset sin imprimirlo todo.

In [12]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]
    for row in dataset_slice:
        print(row)
        print('\n') # adds a new (empty) line after each row

    if rows_and_columns:
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))

In [13]:
explore_data(android, 1,5, True)

['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite ‚Äì FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']


Number of rows: 10841
Number of columns: 13


Tras ejecutar `explore_data(android, 0, 5, True)`, observamos que el dataset de **Google Play** contiene:

- **10,841 aplicaciones**
- **13 columnas**

A simple vista, las columnas que podr√≠an resultar **m√°s √∫tiles para el an√°lisis** son:

- `'App'` ‚Äî Nombre de la aplicaci√≥n  
- `'Category'` ‚Äî Categor√≠a general  
- `'Reviews'` ‚Äî N√∫mero de rese√±as  
- `'Installs'` ‚Äî N√∫mero de instalaciones  
- `'Type'` ‚Äî Gratuita o de pago  
- `'Price'` ‚Äî Precio  
- `'Genres'` ‚Äî G√©nero(s) m√°s espec√≠ficos

In [15]:
explore_data(ios, 1,5, True)

['281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188583', '2822', '3.5', '4.5', '5.0.0', '4+', 'Weather', '37', '5', '3', '1']


['282614216', 'eBay: Best App to Buy, Sell, Save! Online Shopping', '128512000', 'USD', '0', '262241', '649', '4', '4.5', '5.10.0', '12+', 'Shopping', '37', '5', '9', '1']


['282935706', 'Bible', '92774400', 'USD', '0', '985920', '5320', '4.5', '5', '7.5.1', '4+', 'Reference', '37', '5', '45', '1']


Number of rows: 7197
Number of columns: 16


Al explorar el dataset de **iOS**, observamos que contiene:

- **7,197 aplicaciones**
- Un conjunto de columnas con metadatos detallados sobre cada app.

Las columnas que parecen **m√°s relevantes para el an√°lisis** son:

- `'track_name'` ‚Äî Nombre de la aplicaci√≥n  
- `'currency'` ‚Äî Tipo de moneda  
- `'price'` ‚Äî Precio de la app  
- `'rating_count_tot'` ‚Äî Total de calificaciones recibidas  
- `'rating_count_ver'` ‚Äî Calificaciones en la versi√≥n actual  
- `'prime_genre'` ‚Äî G√©nero principal de la app

# Registro incorrecto en la observaci√≥n 10472 de Android

Se observa que la columna que tiene informaci√≥n faltante en esa fila es Genres.

In [18]:
android[10472]

['Life Made WI-Fi Touchscreen Photo Frame',
 '1.9',
 '19',
 '3.0M',
 '1,000+',
 'Free',
 '0',
 'Everyone',
 '',
 'February 11, 2018',
 '1.0.19',
 '4.0 and up']

Si una fila contiene un error o datos inv√°lidos, es posible eliminarla del conjunto de datos usando el statement `del`. Para remover una fila con el √≠ndice `N` de un dataset guardado como **lista de listas**, se utiliza la siguiente sintaxis:

```python
del data[N]

In [20]:
del android[10472]

# Remover duplicados

## Duplicados en el dataset de Google Play

Si exploramos el dataset de Google Play (`android`) con suficiente detalle, observamos que **algunas aplicaciones aparecen m√°s de una vez**.  Por ejemplo, la aplicaci√≥n **Instagram** tiene **cuatro entradas** diferentes dentro del dataset.

Este tipo de duplicaci√≥n puede sesgar el an√°lisis, ya que ciertas apps estar√°n **sobrerrepresentadas** si no limpiamos los datos adecuadamente.

In [23]:
# Revisar lista por lista los nombres y si es instagram, imprimir
for app in android:
    names=app[0]
    if names=="Instagram":
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


Vamos a examinar qu√© otras apps est√°n duplicadas en el dataset de Android. Para ello, realizamos los siguientes pasos:

1. Creamos dos listas:
   - `duplicate_apps`: para guardar los nombres de las apps duplicadas.
   - `unique_apps`: para guardar los nombres de las apps √∫nicas.

2. Iteramos sobre el dataset `android`, donde cada iteraci√≥n representa una fila (lista) dentro de la lista de listas.

3. En cada iteraci√≥n:
   - Se guarda el nombre de la app en una variable llamada `name`.  
     El nombre se encuentra en el √≠ndice `0` de la fila.
   - Si `name` ya est√° en la lista `unique_apps`, se a√±ade a `duplicate_apps`.
   - Si `name` **no** est√° en `unique_apps`, se a√±ade all√≠ como una app nueva.


In [25]:
duplicate_apps = []
unique_apps = []

for app in android:
    name=app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)

In [26]:
print(f"Hay un total de {len(duplicate_apps)} apps duplicadas")
print(f"Hay un total de {len(unique_apps)} apps sin duplicados")

Hay un total de 1181 apps duplicadas
Hay un total de 9659 apps sin duplicados


Algunos ejemplos de apps duplicadas:

In [28]:
duplicate_apps[1:12]

['Box',
 'Google My Business',
 'ZOOM Cloud Meetings',
 'join.me - Simple Meetings',
 'Box',
 'Zenefits',
 'Google Ads',
 'Google My Business',
 'Slack',
 'FreshBooks Classic',
 'Insightly CRM']

## Eliminaci√≥n de Registros Duplicados

Ahora que sabemos que existen aplicaciones duplicadas en el conjunto de datos, debemos remover esos duplicados para que **cada app tenga una sola observaci√≥n**.

Una opci√≥n ser√≠a eliminar las filas duplicadas **aleatoriamente**, pero existe una alternativa m√°s adecuada. Al examinar las filas duplicadas de la aplicaci√≥n *Instagram*, se observa que la **principal diferencia** entre ellas ocurre en la **cuarta posici√≥n** de cada fila, que corresponde al **n√∫mero de rese√±as** (user reviews).

Este n√∫mero var√≠a porque los datos fueron recolectados en **momentos distintos**.  
Por lo tanto, la estrategia m√°s razonable es **conservar la fila con el mayor n√∫mero de rese√±as**, ya que refleja la versi√≥n m√°s actualizada de la informaci√≥n.

In [30]:
# Comprobar la diferencia en rese√±as

for app in android:
    names=app[0]
    if names=="Instagram":
        print(app[3])

66577313
66577446
66577313
66509917


Despu√©s de eliminar los duplicados, deber√≠amos quedarnos con:

In [32]:
print("Expected lenght: ", len(android)-len(duplicate_apps))

Expected lenght:  9659


### Estrategia para Remover Duplicados

Para remover las entradas duplicadas y quedarnos con **una sola fila por aplicaci√≥n**, seguiremos esta estrategia:

1. **Crear un diccionario** llamado `reviews_max`, donde:
   - Cada **llave** ser√° el nombre de una app.
   - Cada **valor** ser√° el **mayor n√∫mero de rese√±as** registrado para esa app.

2. Usar ese diccionario para **crear un nuevo dataset limpio**, que:
   - Incluya **solo una entrada por aplicaci√≥n**.
   - Conserve √∫nicamente la **fila con el mayor n√∫mero de rese√±as** para cada app.

Este enfoque garantiza que la informaci√≥n retenida sea la m√°s actualizada y representativa de cada aplicaci√≥n.

#### Paso 1: Crear el Diccionario con el Mayor N√∫mero de Rese√±as por App

El primer paso para remover duplicados consiste en crear un diccionario llamado `reviews_max`, donde:

- Cada **llave** ser√° el nombre de una app.
- Cada **valor** ser√° el **n√∫mero m√°s alto de rese√±as** registrado para esa app.

##### Procedimiento:

1. Crear un diccionario vac√≠o: `reviews_max = {}`  
2. Iterar sobre el dataset de Google Play, excluyendo la fila de encabezados.
3. En cada iteraci√≥n:
   - Obtener el **nombre de la app** (`name`), que est√° en el √≠ndice 0.
   - Convertir el n√∫mero de rese√±as (√≠ndice 3) a `float` y asignarlo a `n_reviews`.
   - Si `name` ya est√° en `reviews_max` **y** el valor actual de `n_reviews` es mayor que el almacenado:
     - Actualizar el valor en el diccionario con el nuevo n√∫mero.
   - Si `name` **no est√°** en el diccionario:
     - Agregar la entrada con el valor de `n_reviews`.

Es importante **no usar un `else`** aqu√≠, ya que si `reviews_max[name] < n_reviews` resulta ser `False`, el n√∫mero de rese√±as **no debe actualizarse**.

In [35]:
reviews_max={}

for app in android:
    name=app[0]
    n_reviews = float(app[3])
    if name in reviews_max and n_reviews > reviews_max[name]:
        reviews_max[name] = n_reviews
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

Comprobar que el diccionario tenga 9,659 entradas.

In [37]:
len(reviews_max)

9659

#### Paso 2: Usar el Diccionario para Remover los Duplicados

Ahora que ya contamos con el diccionario `reviews_max`, que almacena el **mayor n√∫mero de rese√±as por app**, vamos a construir un **nuevo dataset limpio**.

##### Procedimiento:

1. Crear dos listas vac√≠as:
   - `android_clean`: almacenar√° las filas del nuevo dataset limpio.
   - `already_added`: almacenar√° los nombres de las apps que ya han sido a√±adidas, para evitar duplicados.

2. Iterar sobre el dataset `android` (excluyendo la fila de encabezados).

3. En cada iteraci√≥n:
   - Extraer el **nombre de la app** y guardarlo en la variable `name`.
   - Convertir el n√∫mero de rese√±as (√≠ndice 3) a `float` y guardarlo en `n_reviews`.
   - Verificar si:
     - `n_reviews` es igual al n√∫mero m√°ximo de rese√±as para esa app (seg√∫n `reviews_max`), y
     - `name` no est√° en la lista `already_added`.

4. Si ambas condiciones se cumplen:
   - Agregar la **fila completa** (`app`) a `android_clean`.
   - Agregar el **nombre** de la app a `already_added` para llevar registro.

Este proceso asegura que cada app aparezca solo **una vez** en el dataset limpio, y que esa vez sea con su **registro m√°s reciente** (el de mayor n√∫mero de rese√±as).


In [39]:
android_clean = []
already_added = []

for app in android:
    name = app[0]
    n_reviews = float(app[3])
    
    if n_reviews == reviews_max[name] and name not in already_added:
        android_clean.append(app)
        already_added.append(name)

El dataset debe tener 9,659 filas. 

In [41]:
len(android_clean)

9659

# Remover aplicaciones que no est√°n en ingl√©s

La empresa desarrolla aplicaciones en **ingl√©s**, por lo que nos interesa analizar solamente aquellas apps que est√°n **dise√±adas para anglohablantes**. No obstante, al explorar los datasets, notamos que existen **aplicaciones con nombres que sugieren que no est√°n en ingl√©s**, como por ejemplo:

- T√≠tulos en otros alfabetos (ej. chino, √°rabe, cir√≠lico).
- Aplicaciones con nombres predominantemente en otro idioma.

Por ello, ser√° necesario implementar un filtro para **eliminar aplicaciones que no est√©n en ingl√©s**, bas√°ndonos en el contenido del nombre de la app.

In [43]:
print(ios[814][1])
print(ios[6734][1])
print("\n")
print(android_clean[4412][0])
print(android_clean[7940][0])

ÊêúÁãêÊñ∞Èóª‚ÄîÊñ∞ÈóªÁÉ≠ÁÇπËµÑËÆØÊéå‰∏äÈòÖËØªËΩØ‰ª∂
„Ç®„É¨„É°„É≥„Çø„É´ „Éï„Ç°„É≥„Çø„Ç∏„Éº - È´òÁ≤æÁ¥∞ÔºìÔº§„Ç¢„ÇØ„Ç∑„Éß„É≥Ôº≤Ôº∞Ôºß


‰∏≠ÂõΩË™û AQ„É™„Çπ„Éã„É≥„Ç∞
ŸÑÿπÿ®ÿ© ÿ™ŸÇÿØÿ± ÿ™ÿ±ÿ®ÿ≠ DZ


Nos interesa quitar las aplicaciones cuyos nombres no est√°n escritos en ingl√©s. Una forma de hacerlo es eliminar aquellas cuyo nombre **contiene caracteres no comunes en el idioma ingl√©s**.

Los textos en ingl√©s usualmente incluyen:
- Letras del alfabeto en ingl√©s (`a-z`, `A-Z`)
- N√∫meros (`0-9`)
- Signos de puntuaci√≥n comunes como: `.`, `!`, `?`, `;`
- Algunos s√≠mbolos como: `+`, `*`, `/`

**¬øC√≥mo identificamos caracteres no ingleses?**

Cada caracter en un string tiene un n√∫mero asociado llamado **c√≥digo Unicode**.  
Podemos obtener este n√∫mero con la funci√≥n `ord()`:

```python
ord('a')   # 97
ord('A')   # 65
ord('Áà±')  # 29233

In [45]:
print(ord('a'))
print(ord('A'))
print(ord('Áà±'))
print(ord('5'))
print(ord('+'))

97
65
29233
53
43


Los caracteres com√∫nmente utilizados en ingl√©s tienen c√≥digos num√©ricos que van del **0 al 127**, de acuerdo con el sistema **ASCII** (American Standard Code for Information Interchange).

Bas√°ndonos en ese rango, podemos construir una funci√≥n que detecte si un caracter pertenece al conjunto de caracteres utilizados en textos en ingl√©s:

- Si el valor num√©rico del caracter (obtenido con `ord()`) es **menor o igual que 127**, se considera **ingl√©s**.
- Si el valor es **mayor a 127**, se asume que el caracter **no es parte del alfabeto ingl√©s est√°ndar** (por ejemplo, letras en chino, cir√≠lico o √°rabe).

Los nombres de las aplicaciones est√°n guardados como **strings**, y en Python los strings son:

- **Indexables**: se puede acceder a cada caracter por su posici√≥n.
- **Iterables**: se puede recorrer caracter por caracter usando un loop `for`.

Esto significa que podemos usar un bucle para recorrer un string, evaluar el valor de cada caracter con `ord()`, y decidir si ese caracter es v√°lido o no. Esta idea es la base para construir la funci√≥n que filtrar√° las apps **no escritas en ingl√©s**.

In [47]:
string = 'abc'
print(string[0])
print(string[1])
print(string[2])
print("\n")
for c in string:
    print(c)

a
b
c


a
b
c


## Funci√≥n para Detectar si un Nombre Est√° en Ingl√©s

Vamos a escribir una funci√≥n llamada `is_english()` que:

- Toma como input un **string** (por ejemplo, el nombre de una app).
- Itera sobre cada caracter del string.
- Utiliza `ord()` para obtener el n√∫mero correspondiente de cada caracter.
- Si **alg√∫n caracter tiene un valor mayor a 127**, la funci√≥n asume que **el string no est√° en ingl√©s** y retorna `False`.
- Si **ning√∫n caracter** tiene un valor mayor a 127, la funci√≥n retorna `True`.

In [49]:
def is_english(string):
    for i in string:
        ascii_value=ord(i)
        if ascii_value>127:
            return False
    else:
        return True

### Probar la funci√≥n `is_english()`

Ahora usamos la funci√≥n para revisar si los siguientes nombres est√°n en ingl√©s o no:

- `'Instagram'`
- `'Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠'`
- `'Docs To Go‚Ñ¢ Free Office Suite'`
- `'Instachat üòú'`

In [51]:
apps_prueba=['Instagram', 'Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠','Docs To Go‚Ñ¢ Free Office Suite', 'Instachat üòú']
for app in apps_prueba:
    print(is_english(app))

True
False
False
False


### Limitaci√≥n de la Funci√≥n `is_english()`

Como se observa, la funci√≥n que detecta apps que no est√°n en ingl√©s **no logra identificar correctamente ciertas apps que s√≠ est√°n en ingl√©s**, como:

- *Docs To Go‚Ñ¢ Free Office Suite*
- *Instachat üòú*

Esto se debe a que los **emojis** y caracteres especiales como `‚Ñ¢` caen **fuera del rango ASCII** (mayores a 127), por lo que la funci√≥n los interpreta como signos de que el nombre **no est√° en ingl√©s**, cuando en realidad s√≠ lo est√°. Esto genera **falsos negativos** al filtrar aplicaciones, excluyendo algunas que s√≠ deber√≠an permanecer en el an√°lisis.

Por lo anterior, si se utilizara la funci√≥n tal cual est√°, se corre el riesgo de **perder informaci√≥n valiosa** al etiquetar incorrectamente como no inglesas algunas apps que s√≠ lo son.

Para **minimizar ese riesgo**, se adoptar√° una soluci√≥n m√°s flexible:

- Se eliminar√°n √∫nicamente aquellas aplicaciones cuyo nombre contiene **m√°s de tres caracteres con c√≥digos fuera del rango ASCII**.
- Esto permite que apps en ingl√©s con **hasta tres emojis o caracteres especiales** a√∫n sean aceptadas como v√°lidas.

La funci√≥n seguir√° siendo imperfecta, pero **m√°s efectiva y tolerante en la pr√°ctica**.

### Modificar la Funci√≥n `is_english()`

En este paso, se modifica la funci√≥n `is_english()` para que sea **m√°s tolerante** con nombres de apps en ingl√©s que incluyen **algunos caracteres especiales**.
El objetivo es permitir hasta **tres caracteres** con c√≥digos ASCII mayores a 127. Si el nombre de la app contiene **m√°s de tres** de estos caracteres, entonces se considera que **no est√° en ingl√©s**.
1. Crear un contador que inicie en cero.
2. Iterar sobre cada caracter del string.
3. Si el n√∫mero ASCII del caracter es mayor a 127, incrementar el contador.
4. Si el contador excede 3, retornar `False`.
5. Si el loop termina y el contador es 3 o menor, retornar `True`.

Esta versi√≥n balancea mejor **precisi√≥n** y **flexibilidad**, permitiendo conservar apps v√°lidas aunque contengan s√≠mbolos como `‚Ñ¢`, `¬©` o emojis aislados.

In [54]:
def is_english(string):
    caracteres_mal=0
    for i in string:
        ascii_value=ord(i)
        if ascii_value>127:
            caracteres_mal+=1
        if caracteres_mal > 3:
            return False
    else:
        return True

In [55]:
apps_prueba=['Instagram', 'Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠','Docs To Go‚Ñ¢ Free Office Suite', 'Instachat üòú']
for app in apps_prueba:
    print(app,is_english(app))

Instagram True
Áà±Â•áËâ∫PPS -„ÄäÊ¨¢‰πêÈ¢Ç2„ÄãÁîµËßÜÂâßÁÉ≠Êí≠ False
Docs To Go‚Ñ¢ Free Office Suite True
Instachat üòú True


## Filtrado de aplicaciones en ingl√©s en ambas bases

Ahora, usamos la nueva funci√≥n para filtrar las apps que no est√°n en ingl√©s de ambas bases de datos. Para ello, iteramos sobre cada dataset. Si el nombre de una app se identifica como en ingl√©s, a√±adir la fila completa a una lista separada.

In [57]:
android_clean_english=[]

for app in android_clean:
    name=app[0]
    if is_english(name):
        android_clean_english.append(app)

In [58]:
print(len(android_clean))
print(len(android_clean_english))

9659
9614


In [59]:
ios_english=[]

for app in ios:
    name=app[0]
    if is_english(name):
        ios_english.append(app)

In [60]:
print(len(ios))
print(len(ios_english))

7197
7197


# Filtrar las apps gratuitas

Hasta ahora, en el proceso de limpieza del dataset hemos realizado los siguientes pasos:

- Remover informaci√≥n inadecuada.
- Remover aplicaciones duplicadas.
- Remover aplicaciones que no est√°n en ingl√©s.

Como se mencion√≥ en la introducci√≥n, la compa√±√≠a √∫nicamente desarrolla **aplicaciones gratuitas** para descargar e instalar, y su principal fuente de ingresos proviene de la **publicidad mostrada dentro de las apps**. Sin embargo, los datasets contienen tanto aplicaciones **gratuitas** como **de pago**. Por ello, como √∫ltimo paso del proceso de limpieza, se filtrar√°n √∫nicamente las **aplicaciones gratuitas**.

Una vez completado ese filtro, el dataset estar√° listo para comenzar con el **an√°lisis exploratorio**.

Para dejar el dataset listo para el an√°lisis, se realizar√° un √∫ltimo filtrado para conservar **solo las aplicaciones gratuitas**. El procedimiento consiste en lo siguiente:

1. **Iterar sobre cada dataset** (`android_clean` y `ios`) para filtrar las aplicaciones gratuitas en **listas separadas**.
2. **Identificar correctamente la columna que contiene el precio** de la app en cada dataset:
   - En el dataset de Android, el precio est√° en una columna espec√≠fica (por ejemplo, √≠ndice 7).
   - En el dataset de iOS, el precio tambi√©n se encuentra en una columna identificable (por ejemplo, √≠ndice 4).
3. Los precios est√°n registrados como **strings** (`'0'`, `'$0.99'`, `'$2.99'`, etc.), por lo que es importante asegurarse de que la instrucci√≥n condicional **compare con strings** y no con enteros o floats.
4. Una vez realizado el filtrado, se revisar√° la **extensi√≥n de cada dataset resultante** para saber cu√°ntas aplicaciones gratuitas permanecen y est√°n listas para analizar.


In [63]:
ios_english_free=[]

for app in ios_english:
    precio=app[4]
    if precio=='0':
        ios_english_free.append(app)

In [64]:
android_clean_english_free=[]

for app in android_clean_english:
    precio=app[7]
    if precio=='0':
        android_clean_english_free.append(app)

# Aplicaciones M√°s Comunes por G√©nero

Las bases finales de datos limpias son: `android_clean_english_free` y `ios_english_free`.

Como se mencion√≥ previamente, el objetivo es determinar los **tipos de aplicaci√≥n que tienen mayor probabilidad de atraer usuarios**, ya que el **n√∫mero de usuarios** impacta directamente en los ingresos generados por publicidad.

La validaci√≥n de una idea de app sigue **tres pasos clave**:

1. Construir una **versi√≥n m√≠nima viable** para Android y subirla a **Google Play**.
2. Si la app resulta **rentable** despu√©s de 6 meses, se desarrolla tambi√©n para iOS y se publica en la **App Store**.
3. Dado que la meta final es tener la app disponible en **ambas tiendas**, es fundamental encontrar **perfiles de apps exitosos en ambos mercados**.

Por ejemplo, una buena idea para ambos mercados podr√≠a ser una **app de productividad que utilice gamificaci√≥n** para mejorar el compromiso del usuario.

El an√°lisis que sigue buscar√° identificar qu√© g√©neros y categor√≠as dominan en cada plataforma, para detectar oportunidades viables de desarrollo.

## Construcci√≥n de Tablas de Frecuencia por G√©nero y Categor√≠a

Para identificar los g√©neros y tipos de apps m√°s comunes en cada plataforma, construiremos **tablas de frecuencia** sobre las variables que describen el tipo de aplicaci√≥n en cada dataset:

- En el dataset de **iOS** (`ios_english_free`), la columna relevante es:  
  **`prime_genre`**

- En el dataset de **Android** (`android_clean_english_free`), se utilizar√°n dos columnas:  
  - **`Genres`**  
  - **`Category`**

Para analizar los g√©neros y categor√≠as m√°s comunes en cada plataforma, se crear√°n **dos funciones** complementarias:

1. Una funci√≥n para generar una **tabla de frecuencia** que muestre los **porcentajes** de cada categor√≠a en una columna espec√≠fica.
2. Una segunda funci√≥n para mostrar esa tabla en **orden descendente**, de forma que sea m√°s f√°cil identificar las categor√≠as dominantes.

Ahora bien, los diccionarios en Python **no est√°n ordenados**, por lo que una tabla de frecuencia en forma de diccionario es dif√≠cil de analizar visualmente.  Para resolver esto, la segunda funci√≥n convertir√° el diccionario en una lista de tuplas y luego la ordenar√° de forma descendente.

Se construy√≥ una funci√≥n llamada `display_table()` que realiza los siguientes pasos:

- Toma dos par√°metros:
  - Un **dataset** (lista de listas)
  - Un **√≠ndice** entero que indica la columna de inter√©s
- Genera una tabla de frecuencia usando la funci√≥n `freq_table()`.
- Convierte el diccionario de frecuencias en una **lista de tuplas** (`(clave, valor)`).
- Ordena la lista en **orden descendente** por valor (porcentaje).
- Imprime cada entrada de la tabla de forma legible y ordenada.

In [100]:
def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

**Creaci√≥n de la funci√≥n freq_table()**

Create a function named freq_table() that takes in two inputs: dataset (which will be a list of lists) and index (which will be an integer).

The function should return the frequency table (as a dictionary) for any column we want. The frequencies should also be expressed as percentages.
We already learned how to build frequency tables in the lesson on dictionaries.


In [102]:
def freq_table(dataset, index):
    column_count={}
    for app in dataset:
        valor_columna=app[index]
        if valor_columna in column_count:
            column_count[valor_columna]+=1
        else:
            column_count[valor_columna]=1
    return(column_count)

### An√°lisis de la Tabla de Frecuencia para `prime_genre` (App Store)

A partir de la tabla de frecuencia construida para la columna `prime_genre` del dataset de la App Store, reflexionamos sobre lo siguiente:

1. **¬øCu√°l es el g√©nero m√°s com√∫n? ¬øCu√°l es el segundo m√°s com√∫n?**  

2. **¬øQu√© otros patrones identificas?**  

3. **¬øLa mayor√≠a de las apps est√°n dise√±adas para fines pr√°cticos o de entretenimiento?**  

4. **¬øPodr√≠amos recomendar un perfil de app basado solo en esta tabla?**  

5. **¬øUn alto n√∫mero de apps en un g√©nero implica un gran n√∫mero de usuarios?**  

In [104]:
# prime_genre est√° en la posici√≥n 11
display_table(ios_english_free, 11)

Games : 2257
Entertainment : 334
Photo & Video : 167
Social Networking : 143
Education : 132
Shopping : 121
Utilities : 109
Lifestyle : 94
Finance : 84
Sports : 79
Health & Fitness : 76
Music : 67
Book : 66
Productivity : 62
News : 58
Travel : 56
Food & Drink : 43
Weather : 31
Reference : 20
Navigation : 20
Business : 20
Catalogs : 9
Medical : 8


Es posible notar que el g√©nero m√°s com√∫n con gran diferencia es `Games` con **462 apps**, mientras que el segundo m√°s com√∫n es `Education` con **66 apps**, seguido muy de cerca por `Entertainment` con **64 apps**.

Despu√©s de juegos, hay una distribuci√≥n m√°s dispersa: g√©neros como `Book`, `Social Networking`, `Finance` y `Lifestyle` tienen entre 30 y 50 apps. Las categor√≠as relacionadas con funciones pr√°cticas (`Utilities`, `Health & Fitness`, `Shopping`, `Navigation`) tienen una presencia menor pero no insignificante.

Predominan claramente las apps orientadas al **entretenimiento**, especialmente `Games` (por un amplio margen), as√≠ como `Entertainment`, `Photo & Video`, `Social Networking` y `Music` (en total, **125 apps**). Las categor√≠as pr√°cticas como `Productivity`, `Business`, `Medical` o `Weather` tienen una presencia mucho menor (**19 apps** en total).

Derivado de esta tabla **no es posible recomendar un perfil de app con certeza**. Para hacerlo, ser√≠a necesario combinar esta informaci√≥n con datos de **popularidad**: n√∫mero de rese√±as, descargas o ingresos estimados. En conclusi√≥n, un **alto n√∫mero de apps en un g√©nero no implica autom√°ticamente una alta demanda** ‚Äî tambi√©n puede ser reflejo de saturaci√≥n o competencia excesiva.

### An√°lisis de la Tabla de Frecuencias para Android

Ahora analizamos las tablas de frecuencia de las columnas `Category` y `Genres` del dataset de Google Play. A partir de ellas, reflexionamos sobre las siguientes preguntas:

1. **¬øCu√°les son los g√©neros m√°s comunes?**  

2. **¬øQu√© otros patrones se observan?**  

3. **¬øC√≥mo se comparan estos resultados con los de la App Store de iOS?**  

4. **¬øPodemos recomendar un perfil de app basado en lo que encontramos hasta este punto?**  

5. **¬øLas tablas de frecuencia revelan cu√°les son los g√©neros m√°s frecuentes o los g√©neros que tienen m√°s usuarios?**  

In [106]:
# Category
display_table(android_clean_english_free, 1)

FAMILY : 1676
GAME : 862
TOOLS : 750
BUSINESS : 407
LIFESTYLE : 346
PRODUCTIVITY : 345
FINANCE : 328
MEDICAL : 313
SPORTS : 301
PERSONALIZATION : 294
COMMUNICATION : 287
HEALTH_AND_FITNESS : 273
PHOTOGRAPHY : 261
NEWS_AND_MAGAZINES : 248
SOCIAL : 236
TRAVEL_AND_LOCAL : 207
SHOPPING : 199
BOOKS_AND_REFERENCE : 190
DATING : 165
VIDEO_PLAYERS : 159
MAPS_AND_NAVIGATION : 124
FOOD_AND_DRINK : 110
EDUCATION : 103
ENTERTAINMENT : 85
LIBRARIES_AND_DEMO : 83
AUTO_AND_VEHICLES : 82
HOUSE_AND_HOME : 73
WEATHER : 71
EVENTS : 63
PARENTING : 58
ART_AND_DESIGN : 57
COMICS : 55
BEAUTY : 53


A partir de los datos de frecuencia para la variable `Category`, se identifican los siguientes patrones:

**Categor√≠as m√°s frecuentes:**
- `FAMILY` con **1,676 apps**
- `GAME` con **862 apps**
- `TOOLS` con **750 apps**
- `BUSINESS` con **407 apps**
- `LIFESTYLE`, `PRODUCTIVITY`, `FINANCE`, y `MEDICAL` con entre **313 y 346 apps**

La categor√≠a `FAMILY` lidera por un amplio margen, lo cual sugiere una fuerte presencia de aplicaciones orientadas a ni√±os y familias. Cabe destacar que `GAME` es una categor√≠a separada a pesar de que muchos juegos pueden estar dirigidos a ni√±os, lo cual podr√≠a generar cierta **superposici√≥n** entre ambas categor√≠as.

**Otros patrones observables:**

- Hay una **combinaci√≥n equilibrada** entre apps de entretenimiento (`GAME`, `ENTERTAINMENT`, `VIDEO_PLAYERS`, `SOCIAL`, etc.) y apps de uso pr√°ctico (`TOOLS`, `PRODUCTIVITY`, `FINANCE`, `MEDICAL`, etc.).
- Varias categor√≠as tienen una representaci√≥n **moderada a baja**, como `PARENTING`, `BEAUTY`, `COMICS`, y `ART_AND_DESIGN`, con menos de **60 apps** cada una.
- Algunas categor√≠as como `HEALTH_AND_FITNESS` (273) y `PHOTOGRAPHY` (261) podr√≠an ser vistas como **puentes** entre funcionalidad y entretenimiento.

**Comparaci√≥n con App Store (iOS):**

En la App Store, `GAMES` dominaba con **462 apps**, mientras que en Google Play destaca m√°s `FAMILY`, con **1,676 apps**. Esto sugiere que **Google Play tiene una mayor orientaci√≥n hacia apps familiares o para ni√±os**.

Adem√°s, la categor√≠a `ENTERTAINMENT` tiene una presencia mucho menor en Google Play (**85 apps**) comparado con iOS, lo que podr√≠a reflejar diferencias en la taxonom√≠a de categor√≠as o estrategias de publicaci√≥n.

In [112]:
# Genres
display_table(android_clean_english_free, 9)

Tools : 749
Entertainment : 538
Education : 474
Business : 407
Productivity : 345
Lifestyle : 345
Finance : 328
Medical : 313
Sports : 307
Personalization : 294
Communication : 287
Action : 275
Health & Fitness : 273
Photography : 261
News & Magazines : 248
Social : 236
Travel & Local : 206
Shopping : 199
Books & Reference : 190
Simulation : 181
Dating : 165
Arcade : 164
Video Players & Editors : 157
Casual : 156
Maps & Navigation : 124
Food & Drink : 110
Puzzle : 100
Racing : 88
Role Playing : 83
Libraries & Demo : 83
Auto & Vehicles : 82
Strategy : 81
House & Home : 73
Weather : 71
Events : 63
Adventure : 60
Comics : 54
Beauty : 53
Art & Design : 53
Parenting : 44
Card : 40
Casino : 38
Trivia : 37
Educational;Education : 35
Board : 34
Educational : 33
Education;Education : 30
Word : 23
Casual;Pretend Play : 21
Music : 18
Racing;Action & Adventure : 15
Puzzle;Brain Games : 15
Entertainment;Music & Video : 15
Casual;Brain Games : 12
Casual;Action & Adventure : 12
Arcade;Action & Advent

A partir de la tabla de frecuencias proporcionada, se observan los siguientes patrones:

**G√©neros m√°s frecuentes**

- `Tools` con **749 apps**  
- `Entertainment` con **538 apps**  
- `Education` con **474 apps**  
- `Business` con **407 apps**  
- `Productivity` y `Lifestyle` con **345 apps** cada una  

Estos valores indican una **amplia presencia de aplicaciones funcionales y utilitarias** en la tienda de Google Play.

**Otros patrones observados**

- Hay una combinaci√≥n notable de apps orientadas al **entretenimiento** (`Entertainment`, `Photography`, `Games`, `Music`) y a funciones **pr√°cticas** (`Tools`, `Productivity`, `Finance`, `Business`, `Medical`).
- Se observan **g√©neros compuestos** como `Educational;Brain Games`, `Puzzle;Creativity` o `Art & Design;Action & Adventure`, lo que indica **subcategor√≠as m√°s espec√≠ficas**.
- Algunas combinaciones tienen solo **una o dos apps**, lo que podr√≠a sugerir que se crearon g√©neros demasiado **espec√≠ficos o poco utilizados**.

**Comparaci√≥n con iOS:**

En iOS, `Games` dominaba de manera muy clara con **462 apps**. En cambio, en Google Play el mercado est√° m√°s **diversificado**.  
Aunque hay muchas apps de entretenimiento, tambi√©n destacan apps pr√°cticas como `Tools`, `Education` y `Business`, lo que sugiere diferencias en las estrategias de publicaci√≥n y en el perfil de los usuarios entre ambas plataformas.

**Limitaciones del an√°lisis:**

Aunque g√©neros como `Tools` y `Education` son muy comunes, eso **no implica necesariamente que tengan alta demanda o √©xito comercial**.  
Esta tabla muestra solo **qu√© categor√≠as son m√°s frecuentes**, pero no **cu√°ntos usuarios tienen**, ni **si son rentables**.

Las tablas de frecuencia revelan **la oferta**, no la **popularidad**:
- No informan sobre n√∫mero de descargas, calificaciones ni engagement.
- Un g√©nero com√∫n puede estar **saturado**.
- Un g√©nero poco frecuente puede tener **gran potencial** si concentra usuarios activos.

# Determinar los Tipos de Apps con M√°s Usuarios

El siguiente paso consiste en analizar qu√© **tipos de aplicaciones tienen m√°s usuarios**. Esta informaci√≥n es clave, ya que **mayor n√∫mero de usuarios** implica **mayores ingresos por publicidad** (el modelo de negocio de nuestra compa√±√≠a).

+ Para el dataset de **Google Play**, podemos usar la columna `Installs` como una medida directa de popularidad, ya que indica el **n√∫mero total de instalaciones** por app. Para obtener una visi√≥n m√°s clara por tipo de aplicaci√≥n, calcularemos el **n√∫mero promedio de instalaciones por g√©nero o categor√≠a**, lo que nos permitir√° identificar qu√© tipos de apps tienden a atraer m√°s usuarios.

+ En el caso del dataset de **iOS**, **no contamos con datos sobre instalaciones**. Sin embargo, podemos usar como **proxy de popularidad** el n√∫mero total de calificaciones (`rating_count_tot`), bajo el supuesto de que **mayor n√∫mero de calificaciones** puede corresponder a **m√°s usuarios activos**.

## Aplicaciones m√°s comunes por g√©nero en la App Store

In [114]:
freq_table_ios=freq_table(ios_english_free,11)
freq_table_ios

{'Productivity': 62,
 'Weather': 31,
 'Shopping': 121,
 'Reference': 20,
 'Finance': 84,
 'Music': 67,
 'Utilities': 109,
 'Travel': 56,
 'Social Networking': 143,
 'Sports': 79,
 'Health & Fitness': 76,
 'Games': 2257,
 'Food & Drink': 43,
 'News': 58,
 'Book': 66,
 'Photo & Video': 167,
 'Entertainment': 334,
 'Business': 20,
 'Lifestyle': 94,
 'Education': 132,
 'Navigation': 20,
 'Medical': 8,
 'Catalogs': 9}

In [116]:
for genre in freq_table_ios:
    # total va a tener el n√∫mero total de ratings de cada g√©nero -sin considerar el rating en s√≠-
    total = 0
    # len_genre va a tener el n√∫mero de apps espec√≠ficas de cada g√©nero
    len_genre = 0
    for app in ios:
        genre_app = app[11]
        if genre_app.strip().lower() == genre.strip().lower():
            user_ratings = float(app[5])  # rating_count_tot est√° en el √≠ndice 5
            total += user_ratings
            len_genre += 1
    avg = total / len_genre
    print(genre, ":", avg)

Productivity : 8051.3258426966295
Weather : 22181.027777777777
Shopping : 18615.32786885246
Reference : 22410.84375
Finance : 11047.653846153846
Music : 28842.021739130436
Utilities : 6863.822580645161
Travel : 14129.444444444445
Social Networking : 45498.89820359281
Sports : 14026.929824561403
Health & Fitness : 9913.172222222222
Games : 13691.996633868463
Food & Drink : 13938.619047619048
News : 13015.066666666668
Book : 5125.4375
Photo & Video : 14352.280802292264
Entertainment : 7533.678504672897
Business : 4788.087719298245
Lifestyle : 6161.763888888889
Education : 2239.2295805739514
Navigation : 11853.95652173913
Medical : 592.7826086956521
Catalogs : 1732.5


A continuaci√≥n se muestra el n√∫mero **promedio de calificaciones totales (`rating_count_tot`)** por g√©nero de aplicaci√≥n en la App Store.

**G√©neros con mayor promedio de calificaciones**
- **Social Networking**: ~45,499  
- **Music**: ~28,842  
- **Reference**: ~22,411  
- **Weather**: ~22,181  

**G√©neros con menor interacci√≥n**
- **Medical**: ~593  
- **Catalogs**: ~1,732  
- **Education**: ~2,239  

**Observaciones**
- Aunque `Games` es el g√©nero m√°s frecuente, **no es el que tiene m√°s usuarios promedio** (est√° en ~13,692).
- G√©neros como **Social Networking** y **Music**, aunque pueden tener menos apps, **tienen una base de usuarios muy activa**.
- **Education**, aunque es frecuente, **no tiene muchos usuarios activos por app**.

## Aplicaciones m√°s comunes por g√©nero en Google Play

En este caso tenemos informaci√≥n sobre el **n√∫mero de instalaciones**, lo cual deber√≠a permitirnos tener una imagen m√°s precisa sobre la **popularidad de cada g√©nero**. Sin embargo, los valores de la columna de instalaciones est√°n en **formatos abiertos (open-ended)**, como:

- `100+`
- `1,000+`
- `5,000+`
- `10,000+`
- `1,000,000+`, etc.

Esto significa que **no conocemos el n√∫mero exacto de instalaciones** por app, sino √∫nicamente un rango m√≠nimo. A pesar de ello, los valores siguen siendo √∫tiles como una **aproximaci√≥n general de popularidad** entre g√©neros, especialmente cuando se usa el promedio.

In [122]:
display_table(android_clean_english_free,5)

1,000,000+ : 1394
100,000+ : 1024
10,000,000+ : 935
10,000+ : 904
1,000+ : 744
100+ : 613
5,000,000+ : 605
500,000+ : 493
50,000+ : 423
5,000+ : 400
10+ : 314
500+ : 288
50,000,000+ : 204
100,000,000+ : 189
50+ : 170
5+ : 70
1+ : 45
500,000,000+ : 24
1,000,000,000+ : 20
0+ : 4
0 : 1


Lo anterior implica que **no conocemos el n√∫mero exacto de instalaciones**; por ejemplo, no sabemos si una aplicaci√≥n con `100,000+` instalaciones tiene 100,000, 200,000 o 300,000 instalaciones reales.

Sin embargo, **no necesitamos tanta precisi√≥n** para este an√°lisis, ya que **nuestro objetivo es identificar qu√© g√©neros atraen m√°s usuarios** de manera general. Por ello, vamos a **asumir que los valores indican el m√≠nimo del rango**. Es decir:

- `100,000+` se considerar√° como **100,000**
- `1,000+` como **1,000**
- Y as√≠ sucesivamente.

Para poder realizar c√°lculos con estos valores, primero ser√° necesario **convertir cada n√∫mero de instalaciones de string a float**.  Esto requiere **limpiar los datos** quitando los **signos de m√°s (+)** y las **comas (,)** del string, ya que de lo contrario la conversi√≥n fallar√° y causar√° un error.

In [129]:
# Creamos tabla de frecuencia de Category
category_google_play = freq_table(android_clean_english_free, 1)
category_google_play

{'ART_AND_DESIGN': 57,
 'AUTO_AND_VEHICLES': 82,
 'BEAUTY': 53,
 'BOOKS_AND_REFERENCE': 190,
 'BUSINESS': 407,
 'COMICS': 55,
 'COMMUNICATION': 287,
 'DATING': 165,
 'EDUCATION': 103,
 'ENTERTAINMENT': 85,
 'EVENTS': 63,
 'FINANCE': 328,
 'FOOD_AND_DRINK': 110,
 'HEALTH_AND_FITNESS': 273,
 'HOUSE_AND_HOME': 73,
 'LIBRARIES_AND_DEMO': 83,
 'LIFESTYLE': 346,
 'GAME': 862,
 'FAMILY': 1676,
 'MEDICAL': 313,
 'SOCIAL': 236,
 'SHOPPING': 199,
 'PHOTOGRAPHY': 261,
 'SPORTS': 301,
 'TRAVEL_AND_LOCAL': 207,
 'TOOLS': 750,
 'PERSONALIZATION': 294,
 'PRODUCTIVITY': 345,
 'PARENTING': 58,
 'WEATHER': 71,
 'VIDEO_PLAYERS': 159,
 'NEWS_AND_MAGAZINES': 248,
 'MAPS_AND_NAVIGATION': 124}

In [136]:
for category in category_google_play:
    total = 0
    len_category = 0
    for app in android_clean_english_free:
        category_app=app[1]
        if category_app==category:
            installs = app[5]
            installs=installs.replace("+","")
            installs=installs.replace(",","")
            installs=float(installs)
            total+=installs
            len_category+=1
    avg_installs=total/len_category
    print(category, ": ",avg_installs)

ART_AND_DESIGN :  1986335.0877192982
AUTO_AND_VEHICLES :  647317.8170731707
BEAUTY :  513151.88679245283
BOOKS_AND_REFERENCE :  8767811.894736841
BUSINESS :  1712290.1474201474
COMICS :  817657.2727272727
COMMUNICATION :  38456119.167247385
DATING :  854028.8303030303
EDUCATION :  1833495.145631068
ENTERTAINMENT :  11640705.88235294
EVENTS :  253542.22222222222
FINANCE :  1387692.475609756
FOOD_AND_DRINK :  1924897.7363636363
HEALTH_AND_FITNESS :  4188821.9853479853
HOUSE_AND_HOME :  1331540.5616438356
LIBRARIES_AND_DEMO :  638503.734939759
LIFESTYLE :  1437816.2687861272
GAME :  15588015.603248259
FAMILY :  3695641.8198090694
MEDICAL :  120550.61980830671
SOCIAL :  23253652.127118643
SHOPPING :  7036877.311557789
PHOTOGRAPHY :  17840110.40229885
SPORTS :  3638640.1428571427
TRAVEL_AND_LOCAL :  13984077.710144928
TOOLS :  10801391.298666667
PERSONALIZATION :  5201482.6122448975
PRODUCTIVITY :  16787331.344927534
PARENTING :  542603.6206896552
WEATHER :  5074486.197183099
VIDEO_PLAYERS 

Con base en los resultados obtenidos, podemos identificar patrones de popularidad que ayudan a perfilar una posible app rentable.

Los datos revelan que las categor√≠as m√°s populares, en t√©rminos de **promedio de instalaciones por aplicaci√≥n**, son:

- **Communication** (~38.5 millones)
- **Video Players** (~24.7 millones)
- **Social** (~23.3 millones)
- **Photography** (~17.8 millones)
- **Productivity** (~16.8 millones)
- **Game** (~15.6 millones)
- **Travel & Local** (~14.0 millones)

Estas categor√≠as concentran una base de usuarios significativamente mayor que otras. Esto sugiere que tienen un **alto potencial de alcance**, aunque tambi√©n podr√≠an estar **altamente saturadas**, dificultando la entrada de nuevas apps sin una propuesta verdaderamente diferenciadora.

En contraste, categor√≠as como **Medical**, **Parenting**, **Comics** y **Beauty** presentan promedios mucho menores de instalaciones, lo que sugiere mercados m√°s **especializados o de nicho**. Si bien podr√≠an ser menos competitivos, tambi√©n es probable que tengan un **retorno limitado** en cuanto a n√∫mero de usuarios, a menos que se detecten necesidades no cubiertas.

Dado que la empresa busca **maximizar el n√∫mero de usuarios** (y, por tanto, los ingresos por publicidad), se recomienda enfocarse en las categor√≠as que combinan **alta demanda** con un posible espacio de innovaci√≥n. En particular:

- **Productivity**: Buen equilibrio entre utilidad y alto n√∫mero de instalaciones.
- **Photography**: Gran alcance potencial con espacio para propuestas creativas.
- **Social**: Alto engagement, aunque con fuerte competencia.
- **Video Players** y **Communication**: Demandan alta capacidad t√©cnica, pero podr√≠an ser rentables si se ofrece una mejora sustancial frente a apps existentes.

Una app que integre funciones de productividad con elementos sociales o de gamificaci√≥n podr√≠a ser una combinaci√≥n prometedora en este contexto.


# Conclusiones sobre la app m√°s recomendable

Dado que el objetivo es desarrollar una aplicaci√≥n que pertenezca a un g√©nero popular en ambas plataformas para maximizar el alcance potencial y las oportunidades de monetizaci√≥n. Con base en los datos, los g√©neros que destacan tanto en la App Store como en Google Play son:

Social / Social Networking

Music

Productivity (solo en Google Play, pero con buen potencial)

Photo & Video / Photography

Dado lo anterior, la recomendaci√≥n es desarrollar una app social o musical.