## Enunciado

Disponemos de un dataset de las aplicaciones del **Playstore de Google** (*googleplaystore.csv*). El fichero original se puede descargar de:

https://www.kaggle.com/datasets/bhavikjikadara/google-play-store-applications

pero tienes que utilizar el dataset que se te proporciona porque se han corregido algunas filas y se ha introducido algún cambio.

Queremos hacer un análisis exploratorio de los datos y su transformación en formatos más adecuados.


## Ejercicio 1: EDA

Haremos el análisis exploratorio de los datos (EDA), y eliminaremos las filas que no interesan.

1.1. Carga el dataset en un Dataframe de Pandas.

1.2. Muestra la información básica del dataframe, y las primeras 5 filas.

1.3. La primera columna se llama *unnamed*. Cambia el nombre por ID.

1.4. Elimina las columnas 'Type', 'Current Ver' y 'Android Ver'.

1.5. Renombra las columnas 'Content Rating' a 'Content_Rating' y 'Last Updated' a 'Last_Updated'.

1.6. ¿Cuántas apps hay?

1.7. Elimina las apps repetidas, quédate con la primera ocurrencia. ¿Cuántas apps hay ahora? Haz los cambios en el mismo dataframe.



In [30]:
# 1.1.
import pandas as pd
import numpy as np
df_playstore = pd.read_csv('googleplaystore.csv', thousands='.', encoding="ISO-8859-1")

# 1.2.
df_playstore.info()
df_playstore.head()

# 1.3.
df_playstore.rename(columns={'n': 'ID'}, inplace=True)

# 1.4.
df_playstore.drop(columns=['Type', 'Current Ver', 'Android Ver'], inplace=True)

# 1.5.
df_playstore.rename(columns={'Content Rating': 'Content_Rating', 'Last Updated': 'Last_Updated'}, inplace=True)

# 1.6.
print(f'Hay {df_playstore['App'].count()} APPs')

# 1.7.
df_playstore.drop_duplicates(subset='App', keep='first', inplace=True)
print(f'Sin APPs repetidas: {df_playstore['App'].count()}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10840 entries, 0 to 10839
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   n               10840 non-null  int64  
 1   App             10840 non-null  object 
 2   Category        10840 non-null  object 
 3   Rating          9366 non-null   float64
 4   Reviews         10840 non-null  int64  
 5   Size            10840 non-null  object 
 6   Installs        10840 non-null  object 
 7   Type            10839 non-null  object 
 8   Price           10840 non-null  object 
 9   Content Rating  10840 non-null  object 
 10  Genres          10840 non-null  object 
 11  Last Updated    10840 non-null  object 
 12  Current Ver     10832 non-null  object 
 13  Android Ver     10838 non-null  object 
dtypes: float64(1), int64(2), object(11)
memory usage: 1.2+ MB
Hay 10840 APPs
Sin APPs repetidas: 9659


In [31]:
df_playstore['Rating'] = df_playstore['Rating'] / 10
df_playstore.head()

Unnamed: 0,ID,App,Category,Rating,Reviews,Size,Installs,Price,Content_Rating,Genres,Last_Updated
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",0,Everyone,Art & Design,7--Jan--18
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",0,Everyone,Art & Design;Pretend Play,15--Jan--18
2,2,"U Launcher Lite â FREE Live Cool Themes, Hid...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",0,Everyone,Art & Design,1--Aug--18
3,3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",0,Teen,Art & Design,8--Jun--18
4,4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",0,Everyone,Art & Design;Creativity,20--Jun--18


## Ejercicio 2: Clean y data wrangling

Continuaremos con la limipieza de datos. Habrás visto que columnas que supuestamente tienen que ser numéricas no lo son todavía: *Size*, *Installs* y *Price*. Transformaremos todas estas columnas a numéricas.

2.1. Visualiza otra vez la información del dataframe, donde se pone de manifiesto el tipo de datos de las columnas.

2.2. *Rating* es correcte (*float64*). Por tanto puedes calcular el valor medio de '*Rating*', con dos decimales. Muestra el resultado por pantalla.

2.3. Transforma las columnas *Size*, *Installs* y *Price* a numérico. Como resultado obtén el mismo dataframe con las columnas limpiadas.




In [32]:
# 2.1.
df_playstore.info()
df_playstore.head()

# 2.2.
print(f'El valor medio de las apps es: {df_playstore['Rating'].mean().round(2)}€')

# 2.3.
df_playstore['Size'] = df_playstore['Size'].replace({'M': 10**6, 'k': 10**3, 'Varies with device': 0}, regex=True).map(pd.eval).astype(float)
df_playstore['Installs'] = df_playstore['Installs'].replace({'\\+': '', ',': ''}, regex=True).astype(int)
df_playstore['Price'] = df_playstore['Price'].replace({'\\$': ''}, regex=True).astype(float)

df_playstore.info()
df_playstore.head()

<class 'pandas.core.frame.DataFrame'>
Index: 9659 entries, 0 to 10839
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID              9659 non-null   int64  
 1   App             9659 non-null   object 
 2   Category        9659 non-null   object 
 3   Rating          8196 non-null   float64
 4   Reviews         9659 non-null   int64  
 5   Size            9659 non-null   object 
 6   Installs        9659 non-null   object 
 7   Price           9659 non-null   object 
 8   Content_Rating  9659 non-null   object 
 9   Genres          9659 non-null   object 
 10  Last_Updated    9659 non-null   object 
dtypes: float64(1), int64(2), object(8)
memory usage: 905.5+ KB
El valor medio de las apps es: 3.77€


  df_playstore['Size'] = df_playstore['Size'].replace({'M': 10**6, 'k': 10**3, 'Varies with device': 0}, regex=True).map(pd.eval).astype(float)


<class 'pandas.core.frame.DataFrame'>
Index: 9659 entries, 0 to 10839
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID              9659 non-null   int64  
 1   App             9659 non-null   object 
 2   Category        9659 non-null   object 
 3   Rating          8196 non-null   float64
 4   Reviews         9659 non-null   int64  
 5   Size            9659 non-null   float64
 6   Installs        9659 non-null   int64  
 7   Price           9659 non-null   float64
 8   Content_Rating  9659 non-null   object 
 9   Genres          9659 non-null   object 
 10  Last_Updated    9659 non-null   object 
dtypes: float64(3), int64(3), object(5)
memory usage: 905.5+ KB


Unnamed: 0,ID,App,Category,Rating,Reviews,Size,Installs,Price,Content_Rating,Genres,Last_Updated
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,1000000.0,10000,0.0,Everyone,Art & Design,7--Jan--18
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,1000000.0,500000,0.0,Everyone,Art & Design;Pretend Play,15--Jan--18
2,2,"U Launcher Lite â FREE Live Cool Themes, Hid...",ART_AND_DESIGN,4.7,87510,1000000.0,5000000,0.0,Everyone,Art & Design,1--Aug--18
3,3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,1000000.0,50000000,0.0,Teen,Art & Design,8--Jun--18
4,4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,1000000.0,100000,0.0,Everyone,Art & Design;Creativity,20--Jun--18


## Ejercicio 3: columna datetime, funciones

3.1. Convierte *Last_Updated* a format datetime. Muestra las 5 primeras filas para comprobar que el resultado es correcto.

Tienes que hacer varias comprovaciones previas



In [33]:
# 3.1.
df_playstore['Last_Updated'] = df_playstore['Last_Updated'].replace({'--': '-'}, regex=True).astype('datetime64[ns]')


## Ejercicio 4: filtrar datos

Realiza los siguientes ejercicios:

4.1. Busca todas las apps que contengan '*fc barcelona*' (ignorando mayúsculas y minúsculas), e imprime los resultados, ordenados por fecha, con el formato:
   * *({ID}) {nom_app}: {Rating}, {Last_Updated}*

Por ejemplo: *(10239) FC Barcelona Fantasy Manager: Real football mobile: 4.4, 02/10/2017*
Debes usar el str_contains

4.2. Muestra el número de apps que tienen un Rating entre 0 y 2.9 (incluido). Primero muestra el valor por pantalla, después haz un *assert* de manera que la aserción sea correcta.

4.3. ¿Qué tanto por ciento de aplicaciones tienen un rating entre 0 y 2.9? Muéstralo con el formato "*Porcentaje de apps inferior a 2.9: xxx %*", con dos decimales.

4.4. Eliminar todas las aplicaciones que tienen una puntuación entre 0 y 2.9 y las pones en el dataframe *df_good* (manteniendo el dataframe original intacto). ¿Cuántas tenemos ahora?


In [34]:
#4.1.
df_fcb = df_playstore[df_playstore['App'].str.contains('fc barcelona', case=False)].sort_values(by='Last_Updated')
for i, row in df_fcb.iterrows():
    print(f'{row["ID"]} {row['App']}: {row['Rating']}, {row['Last_Updated'].strftime("%d/%m/%Y")}')

# 4.2.
len(df_playstore[df_playstore['Rating'] < 3 ])

# 4.3.
porcentaje = round(len(df_playstore[df_playstore['Rating'] < 3 ]) / len(df_playstore) * 100, 2)
porcentaje

# 4.4.
df_good = df_playstore[df_playstore['Rating'] >= 3]
df_good

10239 FC Barcelona Fantasy Manager: Real football mobile: 4.4, 02/10/2017
10247 FC BARCELONA EVENTS: 4.3, 22/04/2018
10241 FC Barcelona Official Keyboard: 4.7, 17/05/2018
10251 FCB Connect - FC Barcelona: 4.5, 07/06/2018
10266 Noticias FC Barcelona: 0.5, 15/06/2018
5434 FC Barcelona Official App: 4.6, 26/07/2018
10245 Barca News - FC Barcelona, World Foot & Transfers: 4.8, 04/08/2018


Unnamed: 0,ID,App,Category,Rating,Reviews,Size,Installs,Price,Content_Rating,Genres,Last_Updated
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,1000000.0,10000,0.0,Everyone,Art & Design,2018-01-07
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,1000000.0,500000,0.0,Everyone,Art & Design;Pretend Play,2018-01-15
2,2,"U Launcher Lite â FREE Live Cool Themes, Hid...",ART_AND_DESIGN,4.7,87510,1000000.0,5000000,0.0,Everyone,Art & Design,2018-08-01
3,3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,1000000.0,50000000,0.0,Teen,Art & Design,2018-06-08
4,4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,1000000.0,100000,0.0,Everyone,Art & Design;Creativity,2018-06-20
...,...,...,...,...,...,...,...,...,...,...,...
10831,10832,FR Tides,WEATHER,3.8,1195,1000.0,100000,0.0,Everyone,Weather,2014-02-16
10832,10833,Chemin (fr),BOOKS_AND_REFERENCE,4.8,44,1000.0,1000,0.0,Everyone,Books & Reference,2014-03-23
10835,10836,Sya9a Maroc - FR,FAMILY,4.5,38,1000000.0,5000,0.0,Everyone,Education,2017-07-25
10838,10839,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,0.0,1000,0.0,Mature 17+,Books & Reference,2015-01-19


## Ejercicio 5: Lista

Realiza los siguientes ejercicios:

5.1. Crea una lista que se llame *best_apps* con las aplicaciones que valgan 3 o más dólares, y que tengan un rating máyor o igual que 4.5. El contenido de la lista sólo es el nombre de la app.

5.2. ¿Qué longitud tiene esta lista? No lo muestres por pantalla, haz un *assert* con el valor de la longitud que te ha salido.

5.3. Ordena la lista por longitud de caracteres (de menos a más) y muestra las 10 primeras aplicaciones. Aplícalo sobre la misma lista.

5.4. A partir de la lista *best_apps*, crea una nueva lista (*best_apps_clean*) con *comprehension list* donde habrás eliminado todos los caracteres que no sean alfanuméricos (comillas dobles, comillas simples). También hay caracteres gráficos como diamantes, estrellas, etc. Puedes tratar estos caracteres especiales igual que los caracteres normales. Elimina tambié todo lo que esté entre paréntesis. La eliminación la tienes que hacer con una expresión regular. Muestra las 30 primeras filas.



In [35]:
# 5.1.
best_app = df_good[(df_good['Price'] > 3) & (df_good['Rating'] > 4.5)]['App'].tolist()
type(best_app)

# 5.2.
# assert len(best_app) == 109, 'No te ha dado el resultado corecto'

# 5.3.
best_app.sort(key=len)
# mi_lista_ordenada[:-10]
print(best_app)

#detectar si hay cosas que no son numeros
import re
regex = r'\(.*?\)'
best_apps_clean = [re.sub(regex, '', app) for app in best_app]
best_apps_clean = [re.sub(r'[^a-zA-Z0-9]+', '', app) for app in best_apps_clean]

[print(app) for app in best_apps_clean]


['BW-Go', 'go41cx', 'myGrow', 'Pedi STAT', 'Pocket AC', 'The EO Bar', 'QR Code Pro', 'Anna.K Tarot', 'Day R Premium', 'My Talking Pet', 'Breathing Zone', 'DRAGON QUEST V', 'BatControl Pro', 'Battery HD Pro', 'Toca Life: City', 'BZ Reminder PRO', 'DRAGON QUEST IV', "Dr. Seuss's ABC", 'Weather Live Pro', 'Meditation Studio', 'Monument Valley 2', 'The Legacy (Full)', 'The Room: Old Sins', 'Battleheart Legacy', 'Sago Mini Hat Maker', 'Toca Life: Hospital', 'DraStic DS Emulator', 'Hospitalist Handbook', 'Navi Radiography Pro', 'Smart Launcher Pro 3', 'Weather Forecast Pro', 'Carrier Landings Pro', 'Business Calendar Pro', 'The House of Da Vinci', 'Journal Club: Medicine', 'I am Rich Premium Plus', 'Automagic * Automation', 'CM Launcher 3D Proð\x9f\x92\x8e', 'Diabetes & Diet Tracker', 'The World Ends With You', "Oddworld: New 'n' Tasty", 'BG Monitor Diabetes Pro', 'Blackjack Verite Drills', 'boattheory.ch Full 2018', 'My CookBook Pro (Ad Free)', 'Vargo Anesthesia Mega App', 'G-Force Driving 

[None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None,
 None]

## Ejercicio 6: Agrupamiento de datos

Crea un nuevo dataframe (*my_df*) con los siguientes requisitos:

   * Rating superior a 4
   * reviews >= 5000
   * tamany inferior a 10000000
   * instalaciones >= 50000
   * Content Rating: Everyone

6.1. ¿Qué tamaño tiene? Muestra los 10 primeros valores.

6.2. Crea una lista de diccionarios (*my_dict*, utiliza *dict comprehension*) a partir del anterior dataframe *my_df*, de manera que el primer campo sea el nombre de la aplicación (app), y el segundo campo el género (*Genre*).

6.3. A partir del dataframe my_df, haz un agrupamiento (group by) del número de apps por categoría (*my_df_gb*).

6.4. Elimina del dataframe resultante los géneros que tienen menos de 20 apps.

6.5. Muestra el dataframe resultante por pantalla (continua siendo el dataframe *my_df_gb*).



In [48]:
my_df = df_playstore[
    (df_playstore['Rating'] > 4) &
    (df_playstore['Reviews'] >= 5000) &
    (df_playstore['Size'] < 10000000) &
    (df_playstore['Installs'] >= 50000) &
    (df_playstore['Content_Rating'] == 'Everyone')
]

# 6.1. ¿Qué tamaño tiene? Muestra los 10 primeros valores.
print("Tamaño del DataFrame:", my_df.shape)
print(my_df.head(10))

# 6.2. Crea una lista de diccionarios (my_dict, utiliza dict comprehension) a partir del anterior dataframe my_df, de manera que el primer campo sea el nombre de la aplicación (app), y el segundo campo el género (Genre).
my_dict = [{'app': row['App'], 'genre': row['Genres']} for index, row in my_df.iterrows()]
print('6.2---------------------------------')
my_dict

# 6.3.
my_df_gb = my_df.groupby('Category').size().reset_index(name='num_apps')
print(f'6.3: {my_df_gb}')

# # 6.4. Elimina del dataframe resultante los géneros que tienen menos de 20 apps.
# my_df_gb = my_df_gb[my_df_gb['num_apps'] >= 20]
# print(my_df_gb)

# # 6.5. Muestra el dataframe resultante por pantalla (continua siendo el dataframe my_df_gb).
# print(my_df_gb)

Tamaño del DataFrame: (2298, 11)
    ID                                                App        Category  \
2    2  U Launcher Lite â FREE Live Cool Themes, Hid...  ART_AND_DESIGN   
7    7                                   Infinite Painter  ART_AND_DESIGN   
8    8                               Garden Coloring Book  ART_AND_DESIGN   
10  10                            Text on Photo - Fonteee  ART_AND_DESIGN   
11  11            Name Art Photo Editor - Focus n Filters  ART_AND_DESIGN   
18  18                      FlipaClip - Cartoon animation  ART_AND_DESIGN   
19  19                                       ibis Paint X  ART_AND_DESIGN   
26  26                      Colorfit - Drawing & Coloring  ART_AND_DESIGN   
32  32                          Anime Manga Coloring Book  ART_AND_DESIGN   
36  36     UNICORN - Color By Number & Pixel Art Coloring  ART_AND_DESIGN   

    Rating  Reviews       Size  Installs  Price Content_Rating  \
2      4.7    87510  1000000.0   5000000    0.0      

## Ejercicio 7: Representación gráfica

Vamos a representar gráficamente el número de apps que tiene cada género. Puedes aplicar los cambios en *my_df_gb*:

   * Renombra una de las columnas a Count.
   * Nos quedaremos con un dataframe de una sola columna, Genres y Count. Puedes eliminar las otras columnas.

7.1. Representa en un diagrama de barras el total de aplicacions que al final han quedado por cada género. Para representar los datos tenemos varias alternativas. Una posibilidad es convertir los datos del dataframe en dos listas, una para el eje de las x y la otra para el eje de las y.

7.2. Representa la misma información en un diagrama de sectores circulares.


