## Profitable App Profiles for the App Store and Google Play Markets

**Context**:

Data analyst working for a company that **only build free apps to download and install** on Android and iOS mobile apps available on Google Play and in the App Store, our main source of revenue consists of in-app ads. 

This means that the number of users of our apps determines our revenue for any given app — the more users who see and engage with the ads, the better. 

Our goal for this project is to collect and analyze data to understand what type of apps are likely to attract more users.

## 2. Opening and Exploring the Data

In the previous step, we outlined that our aim is to help our developers understand what type of apps are likely to attract more users on Google Play and the App Store. To do this, we'll need to collect and analyze data about mobile apps available on Google Play and the App Store.

    
            
Now let's open the two data sets and explore them.

In [1]:
def explore_data(dataset, start, end, rows_and_columns=False):
        dataset_slice = dataset[start:end]    
        for row in dataset_slice:
            print(row)
            print('\n') # adds a new (empty) line after each row

        if rows_and_columns:
            print('Number of rows:', len(dataset))
            print('Number of columns:', len(dataset[0]))

#### Instructions

1. Open the two data sets we mentioned above, and save both as lists of lists.

- The App Store data set is stored in a CSV file named AppleStore.csv, and the Google Play data set is stored in a CSV file named googleplaystore.csv.


- Both CSV files can be opened directly in the Jupyter Notebook interface you see on the right of the screen.


- If you run into an error named UnicodeDecodeError, add encoding="utf8" to the open() function (for instance, use open('AppleStore.csv', encoding='utf8')).


2. Explore both data sets using the explore_data() function.


- Print the first few rows of each data set.


- Find the number of rows and columns of each data set (recall that the function assumes the argument for the dataset parameter doesn't have a header row).


3. Print the column names and try to identify the columns that could help us with our analysis. Use the documentation of the data sets if you're having trouble understanding what a column describes. Add a link to the documentation for readers if you think the column names are not descriptive enough.


#### 1 - Open the two data sets we mentioned above, and save both as lists of lists.

In [2]:
from csv import reader

### from csv import reader

In [3]:
AppleStore = open('AppleStore.csv', encoding='utf8')
AppleStore = reader(AppleStore)
AppleStore = list(AppleStore)
header_AppleStore = AppleStore[:1]
AppleStore = AppleStore[1:]

In [4]:
GooglePlay = open('googleplaystore.csv', encoding='utf8')
GooglePlay = reader(GooglePlay)
GooglePlay = list(GooglePlay)
header_GooglePlay = GooglePlay[:1]
GooglePlay = GooglePlay[1:]

#### 2. Explore both data sets using the explore_data() function.

#### 2.1 Print the first few rows of each data set.

In [5]:
explore_data(AppleStore, 0,3)

['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']




In [6]:
explore_data(GooglePlay, 0,3)

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']




#### 2.2 Find the number of rows and columns of each data set (recall that the function assumes the argument for the dataset parameter doesn't have a header row).

In [7]:
row_AppleStore = len(AppleStore)
print(row_AppleStore)

7197


In [8]:
columns_AppleStore = len(header_AppleStore[0][:-1])
print(columns_AppleStore)

15


In [9]:
row_GooglePlay = len(GooglePlay)
print(row_GooglePlay)

10841


In [10]:
columns_GooglePlay = len(header_GooglePlay[0][:-1])
print(columns_GooglePlay)

12


#### 3. Print the column names and try to identify the columns that could help us with our analysis

In [11]:
header_AppleStore

[['id',
  'track_name',
  'size_bytes',
  'currency',
  'price',
  'rating_count_tot',
  'rating_count_ver',
  'user_rating',
  'user_rating_ver',
  'ver',
  'cont_rating',
  'prime_genre',
  'sup_devices.num',
  'ipadSc_urls.num',
  'lang.num',
  'vpp_lic']]

    Content: appleStore.csv
    
        "id" : App ID
     !  "track_name": App Name
     !  "size_bytes": Size (in Bytes)
     !  "currency": Currency Type
     !  "price": Price amount
     !  "ratingcounttot": User Rating counts (for all version)
     !  "ratingcountver": User Rating counts (for current version)
        "user_rating" : Average User Rating value (for all version)
        "userratingver": Average User Rating value (for current version)
        "ver" : Latest version code
        "cont_rating": Content Rating
     !  "prime_genre": Primary Genre
        "sup_devices.num": Number of supporting devices
        "ipadSc_urls.num": Number of screenshots showed for display
        "lang.num": Number of supported languages
        "vpp_lic": Vpp Device Based Licensing Enabled

In [12]:
header_GooglePlay

[['App',
  'Category',
  'Rating',
  'Reviews',
  'Size',
  'Installs',
  'Type',
  'Price',
  'Content Rating',
  'Genres',
  'Last Updated',
  'Current Ver',
  'Android Ver']]

    Content: googleplaystore.csv
    
    ! Application name
    ! Category: Category the app belongs to
      Rating: Overall user rating of the app (as when scraped)
    ! Reviews: Number of user reviews for the app (as when scraped)
      Size: Size of the app (as when scraped)
    ! Installs: Number of user downloads/installs for the app (as when scraped)
    ! Type: Paid or Free
    ! Price: Price of the app (as when scraped)
      Content Rating: Age group the app is targeted at - Children / Mature 21+ / Adult
    ! Genres: An app can belong to multiple genres (apart from its main category).For eg
        a musical family game will belong to

## 3. Deleting Wrong Data

In the previous step, we opened the two data sets and performed a brief exploration of the data. Before beginning our analysis, we need to make sure the data we analyze is accurate, otherwise the results of our analysis will be wrong. This means that we need to:

Detect inaccurate data, and correct or remove it.
Detect duplicate data, and remove the duplicates.
Recall that at our company, we only build apps that are free to download and install, and that are directed toward an English-speaking audience. This means that we'll need to:

Remove non-English apps like 爱奇艺PPS -《欢乐颂2》电视剧热播.
Remove apps that aren't free.
This process of preparing our data for analysis is called data cleaning. Data cleaning is done before the analysis; it includes removing or correcting wrong data, removing duplicate data, and modifying the data to fit the purpose of our analysis.

It's often said that data scientists spend around 80% of their time cleaning data, and only about 20% actually analyzing (cleaned) data. In this project, we'll see that this is not far from the truth.

Let's begin by detecting and deleting wrong data. For this guided project, we'll guide you throughout the entire data cleaning process. In later courses, we'll learn more about data cleaning, and you'll be able to perform data cleaning without any guidance.

#### Instructions

The Google Play data set has a dedicated discussion section, and we can see that one of the discussions describes an error for a certain row.

- 1 Read the discussion and find out what the index of the row is.

- 2 Print the row at that index to check whether it's indeed incorrect. Take into account the user reporting the error might or might have not removed the header row, so the index number might vary.

- 3 If the row has an error, **remove** the row using the del statement. For instance, to remove the row with the index 149 from a data set data that is stored as a list of list, you can use the code del data[149].

- 4 Make sure you don't run the del statement more than once, otherwise you'll delete more than one row.

- 5 Read the discussion section for the App Store data set, and see whether you can find any reports of wrong data.

- 2 Print the row at that index to check whether it's indeed incorrect.

In [13]:
index = 0
for row in GooglePlay:
    long_row = len(row[:-1])
    
    if long_row != columns_GooglePlay:
        
        print("index:",index,'\n',"Application name:",row)
    index +=1

index: 10472 
 Application name: ['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


In [14]:
del GooglePlay[10472]

Checking if row has been removed properlly.

In [15]:
GooglePlay[10472] 

['osmino Wi-Fi: free WiFi',
 'TOOLS',
 '4.2',
 '134203',
 '4.1M',
 '10,000,000+',
 'Free',
 '0',
 'Everyone',
 'Tools',
 'August 7, 2018',
 '6.06.14',
 '4.4 and up']

## 4. Removing Duplicate Entries: Part One

In the last step, we started the data cleaning process and deleted a row with incorrect data from the Google Play data set. If you explore the Google Play data set long enough or look at the discussions section, you'll notice some apps have duplicate entries. For instance, Instagram has four entries:

In [16]:
for app in GooglePlay:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


In total, there are 1,181 cases where an app occurs more than once:

In [17]:
unique_apps = []
duplicate_apps = []

for app in GooglePlay:
    name = app[0]
    if name in unique_apps:
        duplicate_apps.append(name)
    else:
        unique_apps.append(name)
        
print('Number of duplicate apps:',len(duplicate_apps))
print('\n')
print('Examples of duplicate apps:', duplicate_apps[:8])

Number of duplicate apps: 1181


Examples of duplicate apps: ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads']


We don't want to count certain apps **more than once** when we analyze data, so we need to remove the duplicate entries and keep only one entry per app. One thing we could do is remove the duplicate rows randomly, but we could probably find a better way.

If you examine the rows we printed for the Instagram app, **the main difference happens on the fourth position of each row, which corresponds to the number of reviews**. 

The different numbers show the data was collected at different times.

**Instructions**

1 - Mediante una combinación de narración y código, explique al lector que el conjunto de datos de Google Play tiene entradas duplicadas. Imprime algunas filas duplicadas para confirmarlo.

2 - Cuenta el número de duplicados utilizando la técnica que aprendimos anteriormente.

3 - Explica que no vas a eliminar los duplicados al azar. Describe el criterio que vas a utilizar para eliminar los duplicados.

- Ya hemos sugerido un criterio más arriba, pero puedes proponer otro si lo deseas. Asegúrate de apoyar tu criterio con al menos un argumento.

## 5. Removing Duplicate Entries: Part Two

En la pantalla anterior, hemos recorrido el conjunto de datos de Google Play y hemos descubierto que hay 1.181 duplicados. Una vez eliminados los duplicados, nos quedarán 9.659 filas:

In [18]:
print('Longitud esperada', len(GooglePlay) - 1181)

Longitud esperada 9659


To remove the duplicates, we will:

- Crea un diccionario, donde cada clave del diccionario es un nombre único de aplicación y el valor correspondiente del diccionario es el número más alto de reseñas de esa aplicación.


- Utiliza la información almacenada en el diccionario y crea un nuevo conjunto de datos, que sólo tendrá una entrada por app (y para cada app, sólo seleccionaremos la entrada con el mayor número de reseñas).

Para convertir los pasos anteriores en código, necesitaremos utilizar el operador not in. El operador not in es lo contrario del operador in. Por ejemplo, 'z' en ['a', 'b', 'c'] devuelve False porque 'z' no está en ['a', 'b', 'c'], pero 'z' no en ['a', 'b', 'c'] devuelve True porque es cierto que 'z' no está en la lista ['a', 'b', 'c'].

**Instrucciones**

- 1.Cree un diccionario en el que cada clave sea un nombre de aplicación único y el valor correspondiente del diccionario sea el número máximo de reseñas de esa aplicación.


- Comience por crear un diccionario vacío llamado **reviews_max**.
    
    
- Recorre el conjunto de datos de Google Play (asegúrate de no incluir la fila de la cabecera). Para cada iteración:
    
    
- Asigna el nombre de la aplicación a una variable llamada **name**.
        
        
- Convierte el número de reseñas en un **valor flotante**. Asignarlo a una variable llamada **n_reviews**.
        
        
- Si **name** ya existe como clave en el diccionario  **reviews_max** y  **reviews_max[name] <  n_reviews**, actualiza el número de revisiones para esa entrada en el diccionario  **reviews_max**.
        
        
- Si el nombre **no está** en el diccionario **reviews_max** como clave, cree una nueva entrada en el diccionario donde la clave sea el nombre de la aplicación y el valor sea el número de revisiones. Asegúrese de no utilizar una cláusula **else** aquí, de lo contrario el número de reseñas se actualizará incorrectamente siempre que **reviews_max[nombre] < n_reviews** se evalúe como False.
        
        
- Inspeccione el diccionario para asegurarse de que todo ha ido como se esperaba. Mida la longitud del diccionario - recuerde que la longitud esperada es de 9.659 entradas.

In [19]:
reviews_max = {}

for row in GooglePlay:
    name = row[0]
    n_reviews = float(row[3])
    
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
    if name is not reviews_max:
        reviews_max[name] = n_reviews
        
print('length of the dictionary:',len(reviews_max))

length of the dictionary: 9659


    
- 2.Utilice el diccionario que creó anteriormente para eliminar las filas duplicadas:


- Comienza creando dos listas vacías: **android_clean** (que almacenará nuestro nuevo conjunto de datos limpiado) y **already_added** (que sólo almacenará los nombres de las aplicaciones).
    
    
- Recorre el conjunto de datos de Google Play (asegúrate de no incluir la fila de la cabecera) y, en cada iteración:
    
    
- Asigna el nombre de la aplicación a una variable llamada **name**.
        
        
- Convierte el número de reseñas en un **valor flotante** y asígnalo a una variable llamada **n_reviews**.
        
        
- Si **n_revisiones** es el mismo que el número de revisiones máximas de la aplicación **name** (el número se puede encontrar en el diccionario **reviews_max**) y **name** no está ya en la lista **already_added** (lee el cuaderno de soluciones para saber por qué necesitamos esta condición suplementaria):
    
    
- Anexar la fila completa a la lista **android_clean** (que finalmente será una lista de lista y almacenará nuestro conjunto de datos limpiados).
        
        
- Anexar el **name** de la aplicación a la lista **already_added** - esto nos ayuda a mantener un seguimiento de las aplicaciones que ya hemos añadido.

In [20]:
android_clean = []
already_added = []

for row in GooglePlay:
    name = row[0]
    n_reviews = float(row[3])
    
    if n_reviews == reviews_max[name] and name not in already_added:
        android_clean.append(row)
        already_added.append(name)

- 3.Explora el conjunto de datos **android_clean** para asegurarte de que todo ha ido como se esperaba. El conjunto de datos debería tener 9.659 filas. Los dos pasos anteriores son un poco más complicados, así que asegúrate de utilizar Markdown para explicar a los lectores los pasos que has seguido.

In [21]:
print('length of the android_clean dictionary:',len(android_clean))

length of the android_clean dictionary: 9659


In [22]:
android_clean[:2]

[['Photo Editor & Candy Camera & Grid & ScrapBook',
  'ART_AND_DESIGN',
  '4.1',
  '159',
  '19M',
  '10,000+',
  'Free',
  '0',
  'Everyone',
  'Art & Design',
  'January 7, 2018',
  '1.0.0',
  '4.0.3 and up'],
 ['U Launcher Lite – FREE Live Cool Themes, Hide Apps',
  'ART_AND_DESIGN',
  '4.7',
  '87510',
  '8.7M',
  '5,000,000+',
  'Free',
  '0',
  'Everyone',
  'Art & Design',
  'August 1, 2018',
  '1.2.4',
  '4.0.3 and up']]

## 6. Removing Non-English Apps: Part One

En el paso anterior, hemos conseguido eliminar las entradas de aplicaciones duplicadas en el conjunto de datos de Google Play. No necesitamos hacer lo mismo con los datos de la App Store porque no hay duplicados - puedes comprobarlo tú mismo utilizando **la columna id** (no la columna track_name).

Recuerda que utilizamos el inglés para las aplicaciones que desarrollamos en nuestra empresa, y nos gustaría analizar sólo las aplicaciones dirigidas a un público de habla inglesa. Sin embargo, si exploramos los datos lo suficiente, encontraremos que ambos conjuntos de datos tienen aplicaciones con nombres que sugieren que no están dirigidas a un público de habla inglesa.

In [23]:
print(AppleStore[813][1])
print(AppleStore[6731][1])
print('\n')
print(android_clean[4412][0])
print(android_clean[7940][0])

爱奇艺PPS -《欢乐颂2》电视剧热播
【脱出ゲーム】絶対に最後までプレイしないで 〜謎解き＆ブロックパズル〜


Just a Line - Draw Anywhere, with AR
DEM DZ


No nos interesa mantener estas aplicaciones, así que las eliminaremos. 

**Una forma de hacerlo es eliminar todas las aplicaciones cuyo nombre contenga un símbolo que no se utilice habitualmente en el texto en inglés**: el texto en inglés suele incluir letras del alfabeto inglés, números compuestos por dígitos del 0 al 9, signos de puntuación (., !, ?, ;) y otros símbolos (+, *, /).

Entre bastidores, cada carácter que utilizamos en una cadena tiene asociado un número correspondiente. Por ejemplo, el número correspondiente del carácter "a" es 97, el del carácter "A" es 65, y el del carácter "爱" es 29.233. 

Podemos obtener el número correspondiente de cada carácter utilizando la función incorporada **ord().**

In [24]:
print(ord('a'))
print(ord('A'))
print(ord('爱'))
print(ord('5'))
print(ord('+'))

97
65
29233
53
43


Los números correspondientes a los caracteres que utilizamos habitualmente en un texto en inglés están todos en el rango de 0 a 127, según el sistema ASCII (American Standard Code for Information Interchange). Basándonos en este rango de números, podemos construir una función que detecte si un carácter pertenece al conjunto de caracteres comunes del inglés o no.

**Si el número es igual o inferior a 127, el carácter pertenece al conjunto de caracteres ingleses comunes. Si el nombre de una aplicación contiene un carácter mayor que 127, probablemente significa que la aplicación tiene un nombre no inglés.**

**Sin embargo, los nombres de nuestras aplicaciones se almacenan como cadenas, así que ¿cómo podríamos tomar cada carácter individual de una cadena y comprobar su número correspondiente?**

En Python, las cadenas son indexables e iterables, lo que significa que podemos utilizar la indexación para seleccionar un carácter individual, y también podemos iterar sobre la cadena utilizando un bucle for.

In [25]:
string = 'abc'
print(string[0])
print(string[1])
print(string[2])

a
b
c


In [26]:
for character in string:
    print(character)

a
b
c


Intentemos primero escribir la función de la que hablamos antes, y en la siguiente pantalla eliminaremos las filas correspondientes a las aplicaciones no inglesas.

Instructions

- 1 Escribe una función que tome una cadena y devuelva False si hay algún carácter en la cadena que no pertenezca al conjunto de caracteres comunes del inglés, en caso contrario devuelve True.

   - Dentro de la función, iterar sobre la cadena de entrada. En cada iteración comprueba si el número asociado al carácter es mayor que 127. Cuando un carácter es mayor que 127, la función debería devolver inmediatamente False - el nombre de la aplicación probablemente no es inglés ya que contiene un carácter que no pertenece al conjunto de caracteres ingleses comunes.
    
 - Si el bucle termina de ejecutarse sin que se ejecute la declaración de retorno, significa que ningún carácter tenía un número correspondiente superior a 127 - el nombre de la app es probablemente inglés, por lo que las funciones deberían devolver True. 

In [27]:
def english_speak(string):
    for character in string:
        valor_character = ord(character)
        if valor_character > 127:
            return False
        else:
            return True
        

- 2 Utilice su función para comprobar si estos nombres de aplicaciones se detectan como ingleses o no ingleses:

 - 'Instagram'
 
 - '爱奇艺PPS -《欢乐颂2》电视剧热播'
 
 - 'Docs To Go™ Free Office Suite'
 
 - 'Instachat 😜'

In [28]:
english_speak('Instagram')

True

In [29]:
english_speak('爱奇艺PPS -《欢乐颂2》电视剧热播')

False

In [30]:
english_speak('Docs To Go™ Free Office Suite')


True

In [31]:
english_speak('Instachat 😜')

True

## 7. Removing Non-English Apps: Part Two

En la pantalla anterior, escribimos una función que detecta los nombres de aplicaciones no inglesas, pero vimos que la función no podía identificar correctamente ciertos nombres de aplicaciones inglesas como 'Docs To Go™ Free Office Suite' e 'Instachat 😜'. Esto se debe a que los emojis y los caracteres como ™ quedan fuera del rango ASCII y tienen números correspondientes superiores a 127.

In [32]:
print(ord('™'))
print(ord('😜'))

8482
128540


Si vamos a utilizar la función que hemos creado, perderemos datos útiles, ya que muchas aplicaciones inglesas se etiquetarán incorrectamente como no inglesas. Para minimizar el impacto de la pérdida de datos, **sólo eliminaremos una aplicación si su nombre tiene más de tres caracteres con los números correspondientes fuera del rango ASCII**. Esto significa que todas las aplicaciones inglesas con hasta tres emoji u otros caracteres especiales seguirán siendo etiquetadas como inglesas. Nuestra función de filtrado aún no es perfecta, pero debería ser bastante eficaz.

Vamos a editar la función que creamos en la pantalla anterior y a utilizarla para filtrar las aplicaciones no inglesas.

**Instructions**

- 1. Cambie la función que creó en la pantalla anterior. **Si la cadena de entrada tiene más de tres caracteres que caen fuera del rango ASCII (0 - 127), entonces la función debería devolver False (identificar la cadena como no inglesa), de lo contrario debería devolver True.**

In [33]:
def english_speak(cadena):
    non_validchar = []
    for character in cadena:
        valor_character = ord(character)
        if valor_character > 127:
            non_validchar.append(valor_character)
    if len(non_validchar) >= 3:
        return False
    else:
        return True


- 2. Utiliza la nueva función para comprobar si estos nombres de app se detectan como ingleses o no ingleses:

    -  'Docs To Go™ Free Office Suite'
    -  'Instachat 😜'
    -  '爱奇艺PPS -《欢乐颂2》电视剧热播'

In [34]:
english_speak('Docs To Go™ Free Office Suite')

True

In [35]:
english_speak('Instachat 😜')

True

In [36]:
english_speak('爱奇艺PPS -《欢乐颂2》电视剧热播')

False

In [37]:
english_speak('Instachat 😜 😜 😜')

False

In [38]:
english_speak('Instachat 😜 😜 😜')

False

In [39]:
print(ord('😜'))

128540


In [40]:
english_speak('insta 😜😜😜😜😜')

False

- 3. Utiliza la nueva función para filtrar las aplicaciones no inglesas de ambos conjuntos de datos. Haz un bucle en cada conjunto de datos. Si el nombre de una aplicación se identifica como inglés, añade la fila completa a una lista separada.


In [41]:
# AppleStore 1
# android_clean 0

list_AppleStore = []

for row in AppleStore:
    nombre = row[1]
    if english_speak(nombre):
        list_AppleStore.append(row)
    else:
        pass
    
list_android_clean = []

for row in android_clean:
    nombre = row[0]
    if english_speak(nombre):
        list_android_clean.append(row)
    else:
        pass

----

### IMPORTANTE

Cuando intentaba hacer una funcion para que funcionase con los dos conjuntos de datos, intentaba sacar por el return el valor de 'row' para que esa salida fuera aprovechada por append y asi hacer que la funcion retornara los valores a append.

La sorpresa ha sido cuando unicamente me daba un valor y lo que he pensado ha sido que unicamente da un valor porque solamente se hace una llamada a la funcion, ,es decir filter_app funciona correctamente pero como la llamo desde:

- **xxx.append(filter_app(dataset, 1))** 

como resultado solo hace una iteracion.

Esto debo de comentarlo en el foro.

def filter_app(dataset = True, columna = True):
    for row in dataset:
        nombre = row[columna]
        if english_speak(nombre):
            return row
        else:
            pass        

list_AppleStore = []
list_android_clean = []

resultado_1 = filter_app(AppleStore, 1)

list_AppleStore.append(resultado_1)
len(list_AppleStore)

----

- 4. Explore los conjuntos de datos y vea cuántas filas le quedan para cada conjunto de datos.

In [42]:
list_AppleStore[:1]

[['284882215',
  'Facebook',
  '389879808',
  'USD',
  '0.0',
  '2974676',
  '212',
  '3.5',
  '3.5',
  '95.0',
  '4+',
  'Social Networking',
  '37',
  '1',
  '29',
  '1']]

In [43]:
len(list_AppleStore)

6155

In [44]:
len(list_android_clean)

9597

## 8. Isolating the Free Apps

Hasta ahora, en el proceso de limpieza de datos, hemos

- eliminado los datos inexactos

- eliminado entradas de aplicaciones duplicadas.

- eliminado las aplicaciones que no están en inglés.

Como mencionamos en la introducción, sólo creamos aplicaciones que se pueden descargar e instalar de forma gratuita, y nuestra principal fuente de ingresos consiste en los anuncios dentro de la aplicación. 

**Nuestros conjuntos de datos contienen aplicaciones gratuitas y no gratuitas; tendremos que aislar sólo las aplicaciones gratuitas para nuestro análisis.**

Aislar las aplicaciones gratuitas será nuestro último paso en el proceso de limpieza de datos. En la siguiente pantalla, vamos a empezar a analizar los datos.


**Instructions**

1 Recorre cada conjunto de datos para aislar las aplicaciones gratuitas en listas separadas.

- Asegúrate de identificar correctamente las columnas que describen el precio de la aplicación.

- Los precios aparecen como cadenas ('0', 0,99 dólares, 2,99 dólares, etc.), así que asegúrate de que no estás comprobando un entero o un flotante en tus declaraciones condicionales.


2 Después de aislar las aplicaciones gratuitas, comprueba la longitud de cada conjunto de datos para ver cuántas aplicaciones te quedan.

In [45]:
free_AppleStore = [] # 7

for row in list_AppleStore:
    precio = row[4]
 
    if precio == '0.0' or precio == '0':
        free_AppleStore.append(row)
    else:
        pass
    
len(free_AppleStore)  

3203

In [46]:
free_android_clean = [] 

for row in list_android_clean:
    precio = row[7]
    if precio == '0.0' or precio == '0':
        free_android_clean.append(row)
    else:
        pass
    
len(free_android_clean) 

8848

## 9. Most Common Apps by Genre: Part One

Hasta ahora, hemos dedicado una buena cantidad de tiempo a la limpieza de datos, y:

- Eliminado los datos inexactos
- Eliminado entradas de aplicaciones duplicadas
- Eliminado las aplicaciones que no están en inglés.
- Aislado las aplicaciones gratuitas

Como mencionamos en la introducción, nuestro objetivo es determinar los tipos de aplicaciones que probablemente atraigan a más usuarios, ya que nuestros ingresos están muy influidos por el número de personas que utilizan nuestras aplicaciones.

Para minimizar los riesgos y los gastos generales, nuestra estrategia de validación de una idea de aplicación consta de tres pasos:

1 Crear una versión mínima de la aplicación para Android y añadirla a Google Play.

2 Si la aplicación tiene una buena respuesta de los usuarios, la desarrollamos más.

3 Si la aplicación es rentable después de seis meses, construimos una versión de la aplicación para iOS y la añadimos a la App Store.

Como nuestro objetivo final es añadir la aplicación tanto en Google Play como en la App Store, tenemos que encontrar perfiles de aplicaciones que tengan éxito en ambos mercados. Por ejemplo, un perfil que funcione bien en ambos mercados podría ser una aplicación de productividad que haga uso de la gamificación.

Comencemos el análisis por tener una idea de cuáles son los géneros más comunes para cada mercado. Para ello, tendremos que construir tablas de frecuencia para algunas columnas de nuestros conjuntos de datos.

**Intruccciones:**

1 Dar a los lectores más contexto sobre por qué queremos encontrar un perfil de aplicación que se adapte tanto a la App Store como a Google Play. Explica nuestra estrategia de validación para una idea de aplicación.

2 Inspecciona ambos conjuntos de datos e identifica las columnas que podrías utilizar para generar tablas de frecuencia y averiguar cuáles son los géneros más comunes en cada mercado.

In [47]:
header_AppleStore  

[['id',
  'track_name',
  'size_bytes',
  'currency',
  'price',
  'rating_count_tot',
  'rating_count_ver',
  'user_rating',
  'user_rating_ver',
  'ver',
  'cont_rating',
  'prime_genre',
  'sup_devices.num',
  'ipadSc_urls.num',
  'lang.num',
  'vpp_lic']]

In [48]:
header_GooglePlay

[['App',
  'Category',
  'Rating',
  'Reviews',
  'Size',
  'Installs',
  'Type',
  'Price',
  'Content Rating',
  'Genres',
  'Last Updated',
  'Current Ver',
  'Android Ver']]

       "id" : App ID
     ! si  "track_name": App Name
     !  "size_bytes": Size (in Bytes)
     !  "currency": Currency Type
     !  "price": Price amount
     !  "ratingcounttot": User Rating counts (for all version)
     ! si "ratingcountver": User Rating counts (for current version)
        "user_rating" : Average User Rating value (for all version)
        "userratingver": Average User Rating value (for current version)
        "ver" : Latest version code
        "cont_rating": Content Rating
     !  "prime_genre": Primary Genre
        "sup_devices.num": Number of supporting devices
        "ipadSc_urls.num": Number of screenshots showed for display
        "lang.num": Number of supported languages
        "vpp_lic": Vpp Device Based Licensing Enabled
       
       
       
       
   
     [['App',
       'Category',
       'Rating',
       'Reviews',
       'Size',
       'Installs',
       'Type',
       'Price',
       'Content Rating',
       'Genres',
       'Last Updated',
       'Current Ver',
       'Android Ver']])

## 10. Most Common Apps by Genre: Part Two

En la pantalla anterior, vimos nuestra estrategia de validación para una idea de aplicación, y **luego inspeccionamos los conjuntos de datos para identificar las columnas que podrían ser útiles para averiguar cuáles son los géneros más comunes en cada mercado.**

Nuestra conclusión fue:

Necesitaremos construir una tabla de frecuencias para:

- **prime_genre** del conjunto de datos de App Store, 

- **columnas Genres y Category** del conjunto de datos de **Google Play**.

Construiremos dos funciones que podemos utilizar para analizar las tablas de frecuencia:

- Una función para generar tablas de frecuencia que muestren porcentajes

- Otra función que podemos utilizar para mostrar los porcentajes en orden descendente

Ya hemos aprendido a generar tablas de frecuencias que muestren porcentajes, y vamos a construir una función para ello en el siguiente ejercicio. Sin embargo, los diccionarios no tienen orden, y será muy difícil analizar las tablas de frecuencia. Necesitaremos construir una segunda función que nos ayude a mostrar las entradas de la tabla de frecuencias en orden descendente.

Para ello, tendremos que hacer uso de la función incorporada **sorted()**. Esta función toma un tipo de datos iterable (como una lista, un diccionario, una tupla, etc.) y devuelve una lista de los elementos de ese iterable ordenados de forma ascendente o descendente (el parámetro inverso controla si el orden es ascendente o descendente).

In [49]:
a_list = [50,20,100]
print(sorted(a_list))
print(sorted(a_list, reverse = True))

[20, 50, 100]
[100, 50, 20]


The sorted() function doesn't work too well with dictionaries because it only considers and returns the dictionary keys.

In [50]:
freq_table_1 = {'Genre_1': 50,'Genre_3': 20,'Genre_2': 100}
sorted(freq_table_1)

['Genre_1', 'Genre_2', 'Genre_3']

Sin embargo, la función sorted() funciona bien si transformamos el diccionario en una lista de tuplas, donde cada tupla contiene una clave del diccionario junto con su correspondiente valor del diccionario. Para que la ordenación funcione correctamente, el valor del diccionario va primero y la clave del diccionario va después:

In [51]:
freq_table_1 = {'Genre_1': 50,'Genre_3': 20,'Genre_2': 100}
freq_table_1_as_tuple = [(50,'Genre_1'),(20,'Genre_3'),(100, 'Genre_2')]
sorted(freq_table_1_as_tuple)

[(20, 'Genre_3'), (50, 'Genre_1'), (100, 'Genre_2')]

Esto es un poco exagerado para sólo ordenar un diccionario, pero hay maneras mucho más simples de hacer esto una vez que aprendemos técnicas más avanzadas. 

Usando la solución anterior, escribimos una función de ayuda llamada **display_table()**, que podrás combinar con la función que vas a escribir en el siguiente ejercicio. La función display_table() que ves a continuación:

- Toma dos parámetros: **dataset** e **index**. Se espera que el conjunto de datos sea una lista de listas, y que el índice sea un número entero.

- Genera una tabla de frecuencias utilizando la función **freq_table()** (que vas a escribir como ejercicio).

- Transforma la tabla de frecuencias en una lista de tuplas, y luego ordena la lista en orden descendente.

- Imprime las entradas de la tabla de frecuencias en orden descendente.

def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])


Creemos ahora una función para generar tablas de frecuencias, y utilicémosla en combinación con la función display_table().

**Instrucciones**

1 Cree una función llamada **freq_table()** que reciba dos entradas: **dataset** (que se espera que sea una lista de listas) e **index** (que se espera que sea un número entero).

- La función debe devolver la tabla de frecuencias (como un diccionario) para cualquier columna que queramos. Las frecuencias también deben expresarse como porcentajes.

- Ya aprendimos a construir tablas de frecuencias en la misión sobre diccionarios.

2 Copie la función **display_table()** que escribimos anteriormente. 
Utilízala para mostrar la tabla de frecuencias de las columnas:


   **prime_genre**

   **Genres** 

   **Category**
    

Analizaremos las tablas resultantes en la siguiente pantalla.

In [52]:
def freq_table(dataset, index):
    table = {}
    total = 0
    
    for row in dataset:
        total +=1
        value = row[index]
        if value in table:
            table[value] +=1
        else:
            table[value] = 1
        
    table_percentages = {}
    for key in table:
        percentage = (table[key] / total ) * 100
        table_percentages[key]=percentage
            
    return table_percentages

In [53]:
def display_table(dataset, index):
    table = freq_table(dataset, index)
    table_display = []
    for key in table:
        key_val_as_tuple = (table[key], key)
        table_display.append(key_val_as_tuple)

    table_sorted = sorted(table_display, reverse = True)
    for entry in table_sorted:
        print(entry[1], ':', entry[0])

In [54]:
# free_android_clean free_AppleStore

In [55]:
display_table(free_AppleStore,11)   

Games : 58.25788323446769
Entertainment : 7.836403371838902
Photo & Video : 4.995316890415236
Education : 3.6840462066812365
Social Networking : 3.3093974399000934
Shopping : 2.5913206369029034
Utilities : 2.466437714642523
Sports : 2.1542304089915705
Music : 2.0605682172962845
Health & Fitness : 2.0293474867311896
Productivity : 1.7483609116453322
Lifestyle : 1.5610365282547611
News : 1.3424914142990947
Travel : 1.248829222603809
Finance : 1.0927255697783327
Weather : 0.8741804558226661
Food & Drink : 0.8117389946924758
Reference : 0.5307524196066188
Business : 0.5307524196066188
Book : 0.3746487667811427
Navigation : 0.18732438339057134
Medical : 0.18732438339057134
Catalogs : 0.1248829222603809


In [56]:
display_table(free_AppleStore,9)

1.0 : 3.5279425538557603
1.1 : 3.4030596315953794
1.2 : 2.5600999063378085
1.3 : 1.9981267561660945
1.0.1 : 1.5610365282547611
1.4 : 1.4673743365594756
2.0 : 1.1863877614736185
1.0.3 : 1.0302841086481422
1.0.2 : 1.0302841086481422
1.5 : 0.9678426475179519
2.1 : 0.9366219169528567
1.1.1 : 0.8741804558226661
1.2.1 : 0.8429597252575711
1.6 : 0.8117389946924758
1.7 : 0.7492975335622853
1.0.0 : 0.7492975335622853
1.3.0 : 0.6868560724320949
1.1.0 : 0.6868560724320949
1.2.0 : 0.6556353418669997
1.2.2 : 0.6244146113019045
1.0.5 : 0.6244146113019045
1.8 : 0.5931938807368092
1.4.0 : 0.5931938807368092
1.1.2 : 0.5931938807368092
1.0.4 : 0.5931938807368092
2.5 : 0.5307524196066188
1.0.6 : 0.5307524196066188
2.2 : 0.4995316890415236
2.0.1 : 0.4995316890415236
1.5.1 : 0.46831095847642834
3.0 : 0.43709022791133306
2.4 : 0.43709022791133306
2.3 : 0.43709022791133306
2.1.1 : 0.43709022791133306
1.9 : 0.43709022791133306
1.5.0 : 0.43709022791133306
4.0 : 0.4058694973462379
2.0.0 : 0.4058694973462379
1.4

1.4.8 : 0.06244146113019045
1.29.1 : 0.06244146113019045
1.26 : 0.06244146113019045
1.21.1 : 0.06244146113019045
1.2017.20204 : 0.06244146113019045
1.2.17 : 0.06244146113019045
1.19.0 : 0.06244146113019045
1.19 : 0.06244146113019045
1.18 : 0.06244146113019045
1.16.0 : 0.06244146113019045
1.14.0 : 0.06244146113019045
1.111 : 0.06244146113019045
1.11.3 : 0.06244146113019045
1.11.0 : 0.06244146113019045
1.1.11 : 0.06244146113019045
1.09 : 0.06244146113019045
1.0.32 : 0.06244146113019045
1.0.26 : 0.06244146113019045
1.0.24 : 0.06244146113019045
1.0.23 : 0.06244146113019045
1.0.20 : 0.06244146113019045
1.0.14 : 0.06244146113019045
0.9 : 0.06244146113019045
0.8 : 0.06244146113019045
v2.2.21 : 0.031220730565095226
v2.13.9 : 0.031220730565095226
v1.865 : 0.031220730565095226
Update 1.1 : 0.031220730565095226
95.0 : 0.031220730565095226
9.8.5 : 0.031220730565095226
9.5.1 : 0.031220730565095226
9.5 : 0.031220730565095226
9.25 : 0.031220730565095226
9.24.12 : 0.031220730565095226
9.21.3 : 0.03122

In [57]:
display_table(free_AppleStore,1)

VR Roller Coaster : 0.06244146113019045
Mannequin Challenge : 0.06244146113019045
飞猪 : 0.031220730565095226
铁路12306 : 0.031220730565095226
豆瓣 : 0.031220730565095226
花札Online : 0.031220730565095226
秒速 : 0.031220730565095226
知乎 : 0.031220730565095226
机でGOLF : 0.031220730565095226
指神 : 0.031220730565095226
天猫HD : 0.031220730565095226
京东 HD : 0.031220730565095226
▻Sudoku : 0.031220730565095226
▻Solitaire : 0.031220730565095226
■ Square it! : 0.031220730565095226
⋆Solitaire⋆ : 0.031220730565095226
⋆Solitaire : 0.031220730565095226
∞ Infinity Loop : 0.031220730565095226
wetter.com : 0.031220730565095226
vente-privee : 0.031220730565095226
theSkimm : 0.031220730565095226
striker – dropping balls : 0.031220730565095226
splix.io! : 0.031220730565095226
slither.io : 0.031220730565095226
skyticket - Reserve Best Valued Air Tickets : 0.031220730565095226
shopkick - Shopping Rewards & Discounts : 0.031220730565095226
real happy majiang-all stars majiang,mahjong : 0.031220730565095226
radio.de - Der

Wells Fargo Mobile : 0.031220730565095226
Wellbeyond Meditation for Kids : 0.031220730565095226
Welcome to Virtual Reality : 0.031220730565095226
Weirdwood Manor : 0.031220730565095226
Weight Watchers : 0.031220730565095226
Weibo HD : 0.031220730565095226
Weibo : 0.031220730565095226
Weed Firm: RePlanted : 0.031220730565095226
Weed Firm 2: Back To College : 0.031220730565095226
Wedding Planner - Dress Up, Makeup & Cake Design : 0.031220730565095226
Webcams – EarthCam : 0.031220730565095226
Webcams Viewer - Live Video Surveillance IP Cams : 0.031220730565095226
WebMD for iPad : 0.031220730565095226
WeatherBug - Local Weather, Radar, Maps, Alerts : 0.031220730565095226
Weather Underground: Custom Forecast & Local Radar : 0.031220730565095226
Weather Live Free - Weather Forecast & Alerts : 0.031220730565095226
Weather - Radar - Storm with Morecast App : 0.031220730565095226
Weather & Radar : 0.031220730565095226
WeChat : 0.031220730565095226
We Heart It - Fashion, wallpapers, quotes, tatt

Tango - Free Video Call, Voice and Chat : 0.031220730565095226
Tangled Up! - Valentine Special : 0.031220730565095226
Talking Tom Jetski : 0.031220730565095226
Talking Tom Gold Run: Fun & Endless Running Game : 0.031220730565095226
Talking Tom Cat for iPad : 0.031220730565095226
Talking Tom Cat 2 for iPad : 0.031220730565095226
Talking Tom Bubble Shooter : 0.031220730565095226
Talking Tom & Ben News for iPad : 0.031220730565095226
Talking Pierre the Parrot for iPad : 0.031220730565095226
Talking Ginger for iPad : 0.031220730565095226
Talking Ginger 2 : 0.031220730565095226
Talking Ben the Dog for iPad : 0.031220730565095226
Talking Angela for iPad : 0.031220730565095226
Talented Pets Show : 0.031220730565095226
Tagesschau : 0.031220730565095226
Tactile Wars : 0.031220730565095226
TV SPIELFILM - TV Programm mit Live TV : 0.031220730565095226
TRUTH or DARE!!! - FREE : 0.031220730565095226
TRUMP'S WALL - Build it Huge : 0.031220730565095226
TRUMP Yo'Self! Make Your Hair Great Again! : 0.0

Princess Face Paint - Girls Makeup, Dressup and Makeover Games : 0.031220730565095226
Prime Photos from Amazon : 0.031220730565095226
Primal Legends : 0.031220730565095226
Pretty Ballerina - Ballet Dreams : 0.031220730565095226
Premier League - Official App : 0.031220730565095226
PrankDial - #1 Prank Call App : 0.031220730565095226
Pozzle Blocks : 0.031220730565095226
PowerSchool Mobile : 0.031220730565095226
Pou : 0.031220730565095226
Postmates - Food Delivery, Faster : 0.031220730565095226
Poshmark: Buy & Sell Fashion : 0.031220730565095226
Popcorn Buzz - Free Group Calls : 0.031220730565095226
PopSwish Basketball by Andrew Wiggins : 0.031220730565095226
PopCam　Photo : 0.031220730565095226
Pop the Lock : 0.031220730565095226
Pop The Circle! : 0.031220730565095226
Pop Girls - High School Band : 0.031220730565095226
Pony Princess Academy - Dress Up, Style, Feed & Care for Ponies Game : 0.031220730565095226
Polyforge : 0.031220730565095226
Political Knockout PKO Presidential Fight : 0.0

MiFlight™ – Airport security line wait times at checkpoints for domestic and international travelers : 0.031220730565095226
MetaMoJi Note Lite : 0.031220730565095226
Messenger : 0.031220730565095226
Merry Christmas -Activities : 0.031220730565095226
Merriam-Webster Dictionary : 0.031220730565095226
Merged! : 0.031220730565095226
Mercari: Shopping Marketplace to Buy & Sell Stuff : 0.031220730565095226
Memrise: learn languages : 0.031220730565095226
Memorado Brain Training for Memory & Mindfulness : 0.031220730565095226
Mekorama : 0.031220730565095226
Meitu HD : 0.031220730565095226
Meitu : 0.031220730565095226
Meipai : 0.031220730565095226
MeiCam -  Video Production Master : 0.031220730565095226
Megapolis : 0.031220730565095226
Mega Millions & Powerball - lottery games in the US with winning number results, lotto jackpots and prize payouts : 0.031220730565095226
MeetMe - Chat and Meet New People : 0.031220730565095226
Medly - Music Maker : 0.031220730565095226
Medal Masters : Call of de

Foot Locker : 0.031220730565095226
Fooducate - Lose Weight, Eat Healthy,Get Motivated : 0.031220730565095226
Foodie - Delicious Camera for Food : 0.031220730565095226
Followers Analytics for Instagram - InstaReport : 0.031220730565095226
Followers Analysis Tool For Instagram App Free : 0.031220730565095226
Followers - Social Analytics For Instagram : 0.031220730565095226
Followers + for Instagram - Follower Analytics : 0.031220730565095226
FollowMeter for Instagram - Followers Tracking : 0.031220730565095226
Folioscope : 0.031220730565095226
Focus! - Can You Tell Them Apart? : 0.031220730565095226
Flying Police Car Driving Simulator Free: Criminal Craft Chase : 0.031220730565095226
Flying Car Simulator 3D: Stunt Bus : 0.031220730565095226
Flying Car Driving Simulator Free: Extreme Muscle Car - Airplane Flight Pilot : 0.031220730565095226
Fly Delta : 0.031220730565095226
Flutter: Starlight : 0.031220730565095226
Fluege.de - Finde den billigsten Flug : 0.031220730565095226
Flower Girl - 

European War 5: Empire : 0.031220730565095226
European Qualifiers Official App : 0.031220730565095226
Etsy: Shop Handmade, Vintage & Creative Goods : 0.031220730565095226
Escape the Sweet Shop Series : 0.031220730565095226
Escape the Ice Cream Parlor : 0.031220730565095226
Escape the Cake Café : 0.031220730565095226
Escape from the wedding hall. : 0.031220730565095226
Escape from the pit latrine. : 0.031220730565095226
Escape from the music room in the school. : 0.031220730565095226
Escape from the living room during the Obon holiday. : 0.031220730565095226
Escape from the grandma house in the countryside. : 0.031220730565095226
Escape from the frigid Igloo. : 0.031220730565095226
Escape from the beach house of everlasting summer. : 0.031220730565095226
Escape from the ICU room. : 0.031220730565095226
Escape from the Bears of the student council room. : 0.031220730565095226
Escape from the Art Gallery. : 0.031220730565095226
Escape from many tutoring school of test. : 0.031220730565095

Circlify : 0.031220730565095226
Circles : 0.031220730565095226
Circle Swing : 0.031220730565095226
Circle Boom2 - Wheel Puzzle Game : 0.031220730565095226
Circle Boom : 0.031220730565095226
Circle Affinity : 0.031220730565095226
Churchill Solitaire - World War Card Game : 0.031220730565095226
Chunky Tanks : 0.031220730565095226
Chrome Death : 0.031220730565095226
Christmas Sweeper 3 : 0.031220730565095226
Christmas Sweeper 2 : 0.031220730565095226
Christmas Swap 3 -Match toy & candy to countdown : 0.031220730565095226
Christmas Stories: The Gift of the Magi : 0.031220730565095226
Christmas Food Fever Cooking Maker Kids Games : 0.031220730565095226
Christmas Dentist Doctor Kid Games (Girls & Boys) : 0.031220730565095226
Christmas Countdown 2017 : 0.031220730565095226
Choppa : 0.031220730565095226
Choices: Stories You Play : 0.031220730565095226
Chocolate Candy Party - Fudge Madness : 0.031220730565095226
ChineseSkill -Learn Mandarin Chinese Language Free : 0.031220730565095226
Chinese R

## 11. Most Common Apps by Genre: Part Three

En la pantalla anterior, hemos generado tablas de frecuencia para las columnas prime_genre, Genres y Category. Ahora nos centraremos en el análisis de estas tablas de frecuencia.

Recuerda que nuestro conjunto de datos sólo contiene aplicaciones gratuitas en inglés, por lo que debes tener cuidado de no extender tus conclusiones más allá de ese ámbito. Si encuentras que las aplicaciones de juegos son las más numerosas entre las aplicaciones gratuitas en inglés en Google Play, no significa que veamos el mismo patrón en Google Play en su conjunto.


**Instrucciones**

Analiza la tabla de frecuencias que has generado para la columna prime_genre del conjunto de datos del App Store.

- ¿Cuál es el género más común? 
- ¿Cuál es el segundo?
- ¿Qué otros patrones observas?
- ¿Cuál es la impresión general: la mayoría de las aplicaciones están diseñadas para fines prácticos (educación, compras, utilidades, productividad, estilo de vida) o más bien para el entretenimiento (juegos, fotos y vídeos, redes sociales, deportes, música)?

- ¿Puede recomendar un perfil de aplicaciones para el mercado de la App Store basándose únicamente en esta tabla de frecuencias? 

- Si hay un gran número de aplicaciones para un género en particular, ¿implica también que las aplicaciones de ese género suelen tener un gran número de usuarios?

- Analiza la tabla de frecuencias que has generado para la columna Categoría y Géneros del conjunto de datos de Google Play.

- ¿Cuáles son los géneros más comunes?
- ¿Qué otros patrones observas?
- Compara los patrones que ves para el mercado de Google Play con los que viste para el mercado de App Store.
- ¿Puedes recomendar un perfil de aplicación basado en lo que has encontrado hasta ahora? - - ¿Las tablas de frecuencia que has generado revelan los géneros de aplicaciones más frecuentes o qué géneros tienen más usuarios?

In [58]:
display_table(free_AppleStore,11)   

Games : 58.25788323446769
Entertainment : 7.836403371838902
Photo & Video : 4.995316890415236
Education : 3.6840462066812365
Social Networking : 3.3093974399000934
Shopping : 2.5913206369029034
Utilities : 2.466437714642523
Sports : 2.1542304089915705
Music : 2.0605682172962845
Health & Fitness : 2.0293474867311896
Productivity : 1.7483609116453322
Lifestyle : 1.5610365282547611
News : 1.3424914142990947
Travel : 1.248829222603809
Finance : 1.0927255697783327
Weather : 0.8741804558226661
Food & Drink : 0.8117389946924758
Reference : 0.5307524196066188
Business : 0.5307524196066188
Book : 0.3746487667811427
Navigation : 0.18732438339057134
Medical : 0.18732438339057134
Catalogs : 0.1248829222603809


dataset  original:

- applestore: 7197      
- free_applestore:    3203 
- 44,5% de las apps son gratis

dataset  original: 

- GooglePlay: 10841     
- free_android_clean: 8848 

- 81,6%  de las apps son gratis

## 12. Most Popular Apps by Genre on the App Store

Las tablas de frecuencias que analizamos en la pantalla anterior nos mostraron que la App Store está dominada por aplicaciones diseñadas para la diversión, mientras que Google Play muestra un panorama más equilibrado de aplicaciones tanto prácticas como divertidas. 

Ahora, nos gustaría hacernos una idea sobre el tipo de apps con más usuarios.

Una forma de averiguar qué géneros son los más populares (tienen más usuarios) es calcular el número medio de instalaciones de cada género de aplicación. Para el conjunto de datos de Google Play, podemos encontrar esta información en la columna de instalaciones, pero esta información falta para el conjunto de datos de la App Store. 

Como solución, tomaremos el número total de valoraciones de los usuarios como proxy, que podemos encontrar en la app **rating_count_column.**

Empecemos por calcular el número medio de valoraciones de los usuarios por género de aplicación en la App Store. Para ello, necesitaremos

Aislar las apps de cada género.
Sumar las valoraciones de los usuarios de las aplicaciones de ese género.
Dividir la suma por el número de aplicaciones que pertenecen a ese género (no por el número total de aplicaciones).
Para calcular el número medio de valoraciones de los usuarios de cada género, utilizaremos un bucle for dentro de otro bucle for. Este es un ejemplo de un bucle for utilizado dentro de otro bucle for:

In [59]:
some_strings = ['FIRST','SECOND']
some_integers = [1,2,3,4,5]

for string in some_strings:
    print(string)
    
    for integer in some_integers:
        print(integer)

FIRST
1
2
3
4
5
SECOND
1
2
3
4
5


Arriba, podemos ver eso:

Primero iteramos sobre la lista some_strings, y para cada iteración:
Imprimimos la cadena (variable de iteración).
Iniciamos otra iteración sobre la lista algunos_integros.
Para cada iteración sobre esta lista, imprimimos entero (variable de iteración).
Podemos ver que para cada una de las dos iteraciones sobre la lista algunas_cuerdas (hay dos iteraciones porque algunas_cuerdas sólo tiene dos elementos de lista), hay otra iteración interna que ocurre sobre la lista algunos_integros.

La segunda iteración sobre algunas_cuerdas comienza sólo cuando la iteración sobre algunos_integros se ha completado. Observa que todos los elementos de la lista algunos_integros se imprimen para cada una de las dos iteraciones sobre la lista algunas_cadenas.

Un bucle dentro de otro bucle se llama bucle anidado. Usaremos un bucle anidado para calcular los promedios que mencionamos anteriormente.

**Instrucciones**

1. Comience generando una tabla de frecuencias para la columna prime_genre para obtener los géneros únicos de las aplicaciones (a continuación, necesitaremos hacer un bucle sobre los géneros únicos). Puede utilizar la función freq_table() que escribió en una pantalla anterior.

2. Haga un bucle sobre los géneros únicos del conjunto de datos de la App Store. Para cada iteración (a continuación, asumiremos que la variable de iteración se llama género):

- Inicie una variable llamada total con un valor de 0. Esta variable almacenará la suma de las valoraciones de los usuarios (el número de valoraciones, no las valoraciones reales) específicas de cada género.

- Inicie una variable llamada len_genre con un valor de 0. Esta variable almacenará el número de aplicaciones específicas de cada género.

- Realice un bucle sobre el conjunto de datos de la App Store y, en cada iteración, guarde el género de la aplicación en una variable denominada len_genre:

    - Guarda el género de la aplicación en una variable llamada genre_app.

    - Si genre_app es la misma que genre (la variable de iteración del bucle principal), entonces:

        - Guarda el número de valoraciones de los usuarios de la app como un flotador.

        - Suma el número de valoraciones de los usuarios a la variable total.

        - Incrementa la variable len_genre en 1.
        

- Calcule el número medio de valoraciones de los usuarios dividiendo el total entre len_genre. Esto debe hacerse fuera del bucle anidado.

- Imprime el género de la aplicación y el número medio de valoraciones de los usuarios. Esto también debe hacerse fuera del bucle anidado.

3. Analice los resultados e intente obtener al menos una recomendación de perfil de aplicación para la App Store. Ten en cuenta que aquí no hay una respuesta fija, y que no pasa nada si el perfil de aplicación que recomiendas es diferente al que se recomienda en el cuaderno de soluciones.

In [60]:
display_table(prime_genre)

NameError: name 'prime_genre' is not defined