# PROYECTO N°2: The Android App Market on Google Play

Cargue, limpie y visualice datos scrapeados de Google Play Store para obtener información sobre el mercado de aplicaciones de Android.

**Descripción del proyecto**

Las aplicaciones móviles están en todas partes. Son fáciles de crear y pueden ser lucrativos. Debido a estos dos factores, cada vez se están desarrollando más y más aplicaciones. En este proyecto, harás _un análisis completo del mercado de aplicaciones Android_ comparando más de diez mil aplicaciones en Google Play en diferentes categorías. Buscará información sobre los datos para diseñar estrategias que impulsen el crecimiento y la retención. Los **datos** de este proyecto fueron scrapeado desde el sitio web de **Google Play.** Si bien hay muchos conjuntos de datos populares para Apple App Store, no hay muchos para las aplicaciones de Google Play, lo que se debe en parte a la mayor dificultad para scrapeado el segundo en comparación con el primero. Los archivos de datos son los siguientes:

- **apps.csv**: contiene todos los detalles de las aplicaciones en Google Play. Estas son las características que describen una aplicación.
- **user_reviews.csv**: contiene 100 revisiones para cada aplicación, **lo más útil primero.** El texto de cada revisión se ha preprocesado, pasado a través de un motor de analizador de opiniones y etiquetado con su puntuación de opinión.

> **Proyecto no guiado**
>
> Deconstruya la información y extraiga inferencias de un gran conjunto de datos de aplicaciones de Google Play y opiniones de usuarios, utilizando sus habilidades analíticas y de manipulación de datos.‎

---

## 1. Introduccion

<p>
    <img src="https://assets.datacamp.com/production/project_1197/img/google_play_store.png" alt="Google Play logo" width="400">
</p>

<p>
    Las aplicaciones móviles están en todas partes. Son fáciles de crear y pueden ser muy lucrativos desde el punto de vista empresarial. Específicamente, Android se está expandiendo como un sistema operativo y ha capturado más del 74% del mercado total<sup><a href="https://www.statista.com/statistics/272698/global-market-share-held-by-mobile-operating-systems-since-2009">[1]</a></sup>.
</p>
    
<p>
    Los datos de las aplicaciones de Google Play Store tienen un enorme potencial para facilitar las decisiones y la información basadas en datos para las empresas. En este bloc de notas, analizaremos el mercado de aplicaciones de Android comparando aplicaciones de 10k en Google Play en diferentes categorías. También usaremos las opiniones de los usuarios para dibujar una comparación cualitativa entre las aplicaciones.
</p>

<p>
    El conjunto de datos que va a utilizar aquí fue scrapedo de Google Play Store en septiembre de 2018 y se publicó en <a href="https://www.kaggle.com/lava18/google-play-store-apps">Kaggle</a>. Estos son los detalles:<br><br>
</p>

<div style="background-color: #efebe4; color: #05192d; text-align:left; vertical-align: middle; padding: 15px 25px 15px 25px; line-height: 1.6;">
    <div style="font-size:20px">
        <b>datasets/apps.csv</b>
    </div>
    Este archivo contiene todos los detalles de las aplicaciones en Google Play. Hay 9 características que describen una aplicación determinada.
<ul>
    <li><b>App:</b> Nombre de la aplicación‎</li>
    <li><b>Category:</b> Categoría de la aplicación. Algunos ejemplos son: ART_AND_DESIGN, FINANCE, COMICS, BEAUTY etc.</li>
    <li><b>Rating:</b> La calificación media actual (de 5) de la aplicación en Google Play</li>
    <li><b>Reviews:</b> Número de opiniones dadas en la aplicación</li>
    <li><b>Size:</b> Tamaño de la aplicación en MB (megabytes)</li>
    <li><b>Installs:</b> Número de veces que la aplicación se descargó de Google Play</li>
    <li><b>Type:</b> Si la aplicación es de pago o gratuita</li>
    <li><b>Price:</b> Precio de la aplicación en US$ </li>
    <li><b>Last Updated:</b> Fecha en la que la aplicación se actualizó por última vez en Google Play</li>
</ul>
</div>


<div style="background-color: #efebe4; color: #05192d; text-align:left; vertical-align: middle; padding: 15px 25px 15px 25px; line-height: 1.6;">
    <div style="font-size:20px"><b>datasets/user_reviews.csv</b></div>
Este archivo contiene una muestra aleatoria de 100 comentarios de primeros usuarios 
<a href="https://www.androidpolice.com/2019/01/21/google-play-stores-redesigned-ratings-and-reviews-section-lets-you-easily-filter-by-star-rating/">más útiles</a> para cada aplicación. El texto de cada revisión se ha procesado previamente y se ha pasado a través de un analizador de opiniones.
<ul>
    <li><b>App:</b> Nombre de la aplicación en la que se proporcionó la revisión de usuarios. Coincide con la columna `App` del archivo `apps.csv`.</li>
    <li><b>Review:</b> El texto de revisión de usuarios preprocesado‎</li>
    <li><b>Sentiment Category:</b>  Categoría De sentimiento de la opinión del usuario - Positivo, Negativo o Neutral</li>
    <li><b>Sentiment Score:</b> Puntuación de opinión de la revisión del usuario. Se encuentra entre [-1,1]. Una puntuación más alta denota un sentimiento más positivo.</li>

</ul>
</div>


<p>A partir de ahora, será su tarea explorar y manipular los datos hasta que pueda responder a las tres preguntas descritas en el panel de instrucciones.<br></p>

In [108]:
# Librerias
import pandas as pd
import numpy as np

In [109]:
# Importacion de datos
apps = pd.read_csv("datasets/apps.csv")
user_reviews = pd.read_csv("datasets/user_reviews.csv")

In [110]:
apps.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Last Updated
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19.0,"10,000+",Free,0.0,"January 7, 2018"
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14.0,"500,000+",Free,0.0,"January 15, 2018"
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7,"5,000,000+",Free,0.0,"August 1, 2018"
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25.0,"50,000,000+",Free,0.0,"June 8, 2018"
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8,"100,000+",Free,0.0,"June 20, 2018"


In [111]:
user_reviews.head()

Unnamed: 0,App,Review,Sentiment Category,Sentiment Score
0,10 Best Foods for You,I like eat delicious food. That's I'm cooking ...,Positive,1.0
1,10 Best Foods for You,This help eating healthy exercise regular basis,Positive,0.25
2,10 Best Foods for You,,,
3,10 Best Foods for You,Works great especially going grocery store,Positive,0.4
4,10 Best Foods for You,Best idea us,Positive,1.0


In [112]:
apps.shape
apps.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9659 entries, 0 to 9658
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   App           9659 non-null   object 
 1   Category      9659 non-null   object 
 2   Rating        8196 non-null   float64
 3   Reviews       9659 non-null   int64  
 4   Size          8432 non-null   float64
 5   Installs      9659 non-null   object 
 6   Type          9659 non-null   object 
 7   Price         9659 non-null   float64
 8   Last Updated  9659 non-null   object 
dtypes: float64(3), int64(1), object(5)
memory usage: 679.3+ KB


In [113]:
apps.isna() # Mostrar si hay nulos por cada dato
apps.isna().any() ## Si hay algun valor nulo en la columna
apps.isna().sum() ## Cantidad de nulos

App                0
Category           0
Rating          1463
Reviews            0
Size            1227
Installs           0
Type               0
Price              0
Last Updated       0
dtype: int64

In [None]:
# PASO 1 *- Lea el archivo apps.csv y limpie la columna Installs
#           para convertirlo en un tipo de datos entero.
# Guarde la respuesta como un marco de datos . 
# En el futuro, hará todo el análisis en el DataFrame "apps"

In [96]:
# Eliminamos el signo para luego pasarlo a entero
apps["Installs"] = apps["Installs"].str[:-1] 
apps['Installs'] = [x.replace(',','') for x in apps["Installs"]]
apps['Installs'] = pd.to_numeric(apps['Installs'],errors='coerce')
apps['Installs'] = apps['Installs'].fillna(0)
apps['Installs'] = [int(x) for x in apps["Installs"]]

In [97]:
apps['Installs'] 

0          10000
1         500000
2        5000000
3       50000000
4         100000
          ...   
9654        5000
9655         100
9656        1000
9657        1000
9658    10000000
Name: Installs, Length: 9659, dtype: int64

In [None]:
# PASO 2 *- Encuentra el número de aplicaciones en cada categoría,
#           el precio medio y la calificación media.
# Guarde la respuesta como un marco de datos "app_category_info"
# Debe cambiar el nombre de las cuatro columnas como:
# Category, Number of apps, Average price, Average rating

In [99]:
type_count= apps.groupby("Category")["App"].count()
price_count= apps.groupby("Category")["Price"].mean()
rating_count= apps.groupby("Category")["Rating"].mean()

In [100]:
dict_of_lists = {
    "Number of apps": type_count,
    "Average price": price_count,
    "Average rating": rating_count
}
app_category_info = pd.DataFrame(dict_of_lists)
app_category_info.reset_index() 
display(app_category_info)

Unnamed: 0_level_0,Number of apps,Average price,Average rating
Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ART_AND_DESIGN,64,0.093281,4.357377
AUTO_AND_VEHICLES,85,0.158471,4.190411
BEAUTY,53,0.0,4.278571
BOOKS_AND_REFERENCE,222,0.539505,4.34497
BUSINESS,420,0.417357,4.098479
COMICS,56,0.0,4.181481
COMMUNICATION,315,0.263937,4.121484
DATING,171,0.160468,3.970149
EDUCATION,119,0.150924,4.364407
ENTERTAINMENT,102,0.078235,4.135294


In [None]:
# PASO 3 *- Encuentra las 10 mejores aplicaciones gratuitas de finanza
#           que tienen la puntuación de opinión promedio más alta.
# Guarde la respuesta como un marco de datos
# La respuesta debe tener exactamente 10 filas y dos columnas denominadas: 
# App y Sentiment Score, donde top_10_user_feedback 
# el promedio Sentiment Score se ordena de mayor a menor.

In [102]:
# Aplicaciones de FINANZAS tipo FREE
# app_finance = apps[apps["Category"] == "FINANCE"]
app_finance = apps[np.logical_and(apps["Category"] == "FINANCE",apps["Type"]== "Free")]
app_finance.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Last Updated
837,K PLUS,FINANCE,4.4,124424,,10000000,Free,0.0,"June 26, 2018"
838,ING Banking,FINANCE,4.4,39041,,1000000,Free,0.0,"August 3, 2018"
839,Citibanamex Movil,FINANCE,3.6,52306,42.0,5000000,Free,0.0,"July 27, 2018"
840,The postal bank,FINANCE,3.7,36718,,5000000,Free,0.0,"July 16, 2018"
841,KTB Netbank,FINANCE,3.8,42644,19.0,5000000,Free,0.0,"June 28, 2018"


In [104]:
merge_dataframe = pd.merge(app_finance, 
                           user_reviews, 
                           how='inner', 
                           on=['App'])
merge_dataframe.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Last Updated,Review,Sentiment Category,Sentiment Score
0,Citibanamex Movil,FINANCE,3.6,52306,42.0,5000000,Free,0.0,"July 27, 2018","Forget paying app, designed make fail payments...",Negative,-0.5
1,Citibanamex Movil,FINANCE,3.6,52306,42.0,5000000,Free,0.0,"July 27, 2018","It's working expected, talking best bank Mexic...",Positive,0.4
2,Citibanamex Movil,FINANCE,3.6,52306,42.0,5000000,Free,0.0,"July 27, 2018",It has many problems with Android 8.1. You can...,Positive,0.25
3,Citibanamex Movil,FINANCE,3.6,52306,42.0,5000000,Free,0.0,"July 27, 2018","I changed my phone to a Xiaomi Redmi Note 5, t...",Positive,0.175
4,Citibanamex Movil,FINANCE,3.6,52306,42.0,5000000,Free,0.0,"July 27, 2018",In her eagerness to make her look pretty with ...,Negative,-0.158333


In [105]:
group_App = merge_dataframe.groupby(["App"])[["Sentiment Score"]].mean()
group_App.head()

Unnamed: 0_level_0,Sentiment Score
App,Unnamed: 1_level_1
A+ Mobile,0.329592
ACE Elite,0.252171
Acorns - Invest Spare Change,0.046667
Amex Mobile,0.175666
Associated Credit Union Mobile,0.388093


In [106]:
top_10_user_feedback = group_App.sort_values(["Sentiment Score"], ascending=False)
top_10_user_feedback = top_10_user_feedback[:10]
top_10_user_feedback

Unnamed: 0_level_0,Sentiment Score
App,Unnamed: 1_level_1
BBVA Spain,0.515086
Associated Credit Union Mobile,0.388093
BankMobile Vibe App,0.353455
A+ Mobile,0.329592
Current debit card and app made for teens,0.327258
BZWBK24 mobile,0.326883
"Even - organize your money, get paid early",0.283929
Credit Karma,0.270052
Fortune City - A Finance App,0.266966
Branch,0.26423
