# **Prediciendo el Rating de las aplicaciones en Google PlayStore**

![](https://www.datasource.ai/uploads/e33dc9d94a413913f6a65caa5e0d4b75.png)

Competencia en [DatasourceAI](https://www.datasource.ai/es/home/data-science-competitions-for-startups/prediciendo-el-rating-de-las-aplicaciones-en-google-play-store):

DataSource nos provee un problema de **clasificación** en el que basándonos en los datos de una aplicación, tendremos que predecir su **Rating**

La escala del **Rating** se transformó en 2 clases:

- **0** si el Rating es menor o igual que 4 (Rating <= 4.0)

- **1** si el Rating en mayor a 4 (Rating > 4.0)


# **Pregunta 1**

En esta pregunta tienes que cargar las librerías necesarias para armar tu modelo de clasificación.

Importa **Pandas** para leer datos\
Importa **Missingno** para identificar nulos.\
Importa **Seaborn** para identificar outliers.\
Importa **train_test_split** de Sklearn para dividir los datos\
Importa **RandomForestClassifier** y **LogisticRegression** de Sklearn para armar tus modelos\
Importa **accuracy_score** de Sklearn para medir la precisión de tus modelos.  \\

Finalmente **utiliza pandas** para leer los datos que se encuentran en el siguiente enlace:
https://raw.githubusercontent.com/HackSpacePeru/Datasets_intro_Data_Science/master/google_playstore.csv


In [2]:
#importamos pandas como pd
import pandas as pd

#importamos mssingno como msno
import missingno as msno

#importamos seaborn como sns
import seaborn as sns

#importamos train_test_split
from sklearn.model_selection import train_test_split

#importamos accuacy_score
from sklearn.metrics import accuracy_score

#importamos RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

#importamos LogisticRegression
from sklearn.linear_model import LogisticRegression

#Importamos numpy
import numpy as np


In [3]:
#Leeremos los datos
df = pd.read_csv("https://raw.githubusercontent.com/HackSpacePeru/Datasets_intro_Data_Science/master/google_playstore.csv")

#Devolvemos los datos
df.head()

Unnamed: 0,Category,Rating,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
0,133,1.0,149723,541,Free,0.0,4764,0.768336,761
1,219,0.0,853,661,Free,0.0,4764,0.641972,1317
2,67,1.0,61881,356,Free,0.0,4764,1.172458,582
3,508,0.0,21943,356,Free,0.0,4764,0.757642,381
4,1114,1.0,6,536,Free,0.0,4764,1.058965,1317


# **Pregunta 2**

En esta pregunta tienes que realizar todo el **Preprocesamiento** requerido para tu modelo de clasificación.

 - Detecta y reemplaza aquella columna que tiene datos categóricos
 - Identifica si hay o no valores nulos en los datos, de ser así, reemplázalos por la media o moda.


In [4]:
#Vamos a predecir el Rating
df['Rating']

0       1.0
1       0.0
2       1.0
3       0.0
4       1.0
       ... 
5783    1.0
5784    0.0
5785    1.0
5786    1.0
5787    1.0
Name: Rating, Length: 5788, dtype: float64

In [5]:
df['Type']=pd.get_dummies(df['Type'])

df

Unnamed: 0,Category,Rating,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
0,133,1.0,149723,541,1,0.00,4764,0.768336,761
1,219,0.0,853,661,1,0.00,4764,0.641972,1317
2,67,1.0,61881,356,1,0.00,4764,1.172458,582
3,508,0.0,21943,356,1,0.00,4764,0.757642,381
4,1114,1.0,6,536,1,0.00,4764,1.058965,1317
...,...,...,...,...,...,...,...,...,...
5783,195,1.0,69119316,12,1,0.00,4764,0.306677,582
5784,170,0.0,44,536,1,0.00,4764,0.644734,143
5785,46,1.0,3005,623,0,2.99,4764,0.754550,846
5786,1114,1.0,708,298,1,0.00,4764,0.559427,137


In [6]:
#Reemplazar datos datos nulos por moda o media
#Vamos a buscar valores nulos
df.isnull().values.any()

False

In [7]:
#Devolvemos los datos si tenemos nulos
df.isnull()

Unnamed: 0,Category,Rating,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
5783,False,False,False,False,False,False,False,False,False
5784,False,False,False,False,False,False,False,False,False
5785,False,False,False,False,False,False,False,False,False
5786,False,False,False,False,False,False,False,False,False


In [10]:
#Quitamos la columna 'Rating'
x_train = df.drop('Rating', axis=1)

#Declaramos y_traing con el dato de Rating
y_train = df['Rating']

#values.counts() = cuenta los numeros que coinciden
y_train.value_counts()

#Devolvemos los datos
print(y_train.value_counts())

1.0    4317
0.0    1471
Name: Rating, dtype: int64


In [11]:
#Quitamos la columna 'Rating'
x_test = df.drop('Rating', axis=1)

#Declaramos y_test con el dato de Rating
y_test = df['Rating']

#values.counts() = cuenta los numeros que coinciden
y_train.value_counts()

#Devolvemos los datos contados
print(y_train.value_counts())

1.0    4317
0.0    1471
Name: Rating, dtype: int64


# **Pregunta 3**

En esta pregunta deberás realizar la partición de los datos en train y test.

- Utiliza el método de **train_test_split** reservando el **20%** para test.


In [10]:
#Preparamos el modelo train_test_split
X_train, X_test, y_train, y_test = train_test_split(x_train, y_train, test_size=0.2)

In [11]:
X_train

Unnamed: 0,Category,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
1697,37,3596,623,1,0.00,597,0.746032,846
4445,204,24980,841,1,0.00,4764,0.550864,1317
4667,253,2094,308,1,0.00,4764,0.990172,143
1603,1114,1752017,114,1,0.00,4764,0.687842,1317
3691,1114,1,448,1,0.00,4764,1.144774,846
...,...,...,...,...,...,...,...,...
5766,212,1734,661,1,0.00,234,1.249489,846
2340,253,3,448,0,2.99,4764,0.453316,1317
3157,1114,1667,623,0,14.99,597,0.928328,381
3983,264,0,237,1,0.00,4764,0.821480,1317


In [12]:
y_train

1697    1.0
4445    1.0
4667    0.0
1603    1.0
3691    1.0
       ... 
5766    1.0
2340    1.0
3157    1.0
3983    1.0
3962    1.0
Name: Rating, Length: 4630, dtype: float64

In [13]:
#Comprobamos si x_test esta bien
print('',x_test)

#Comprobamos si y_test esta bien
y_test

       Category   Reviews  Installs  Type  Price  Content Rating    Genres  \
0          133    149723       541     1   0.00            4764  0.768336   
1          219       853       661     1   0.00            4764  0.641972   
2           67     61881       356     1   0.00            4764  1.172458   
3          508     21943       356     1   0.00            4764  0.757642   
4         1114         6       536     1   0.00            4764  1.058965   
...        ...       ...       ...   ...    ...             ...       ...   
5783       195  69119316        12     1   0.00            4764  0.306677   
5784       170        44       536     1   0.00            4764  0.644734   
5785        46      3005       623     0   2.99            4764  0.754550   
5786      1114       708       298     1   0.00            4764  0.559427   
5787       134       144       536     1   0.00             597  0.462860   

      Android Ver  
0             761  
1            1317  
2             

2928    1.0
4483    1.0
4529    1.0
1068    1.0
1114    1.0
       ... 
114     1.0
3323    1.0
5020    0.0
4282    1.0
5658    1.0
Name: Rating, Length: 1158, dtype: float64

# **Pregunta 4**

En esta pregunta debes realizar el **Modelamiento**. Utiliza **train** (X_train, y train) para entrenar:
- Un modelo de clasificación con **Random Forest**
- Un modelo de clasificación con **Regresión Logistica**

In [14]:
#Create del modelo
rf = RandomForestClassifier(n_jobs = -1,max_depth=3,random_state=1) #creamos la variable rf para guardar el modelo con los parámetros deseados
rf.fit(X_train,y_train) #entrenamos con datos guardados en X_train, y_train
rf_pred = rf.predict(X_test) #generamos las predicciones usando como variables predictoras los datos en X_test
rf_pred #mostramos las predicciones guardadas en la variable rf_pred

array([1., 1., 1., ..., 1., 1., 1.])

In [15]:
#Importamos sklear.metrics
from sklearn.metrics import confusion_matrix, classification_report

#Instacia del clasificacion: logreg
logreg = LogisticRegression()

#Clasificacdor a los de entrenamiento
logreg.fit(X_train, y_train)

#Modelo de prueba para que haga predicciones después del entrenamiento: y_pred
y_pred = logreg.predict(X_test)

print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[  0 296]
 [  1 861]]
              precision    recall  f1-score   support

         0.0       0.00      0.00      0.00       296
         1.0       0.74      1.00      0.85       862

    accuracy                           0.74      1158
   macro avg       0.37      0.50      0.43      1158
weighted avg       0.55      0.74      0.63      1158



# **Pregunta 5**

En esta pregunta debes realizar la **Evaluación** de ambos modelos:
 - Genera las **predicciones** utilzando **X_test** para ambos modelos
 - Evalúa el rendimiento de cada modelo utilizando **accuracy_score** para comparar y_test versus tus predicciones.

In [None]:
#Donde sklearn.metrics importamos accury_score
from sklearn.metrics import accuracy_score

In [50]:
#Creando el segundo metodo "predict"
model2 = rf.predict(X_test)

#Devolvemos la predicción
predict1 = accuracy_score(y_test, model2)

#Devolvemos la segunda predicción
predict1

0.7443868739205527

In [45]:
#Creando el primer Metodo "predct"
y_pred = logreg.predict(X_test)

#Hacemos las predicciones
predict = accuracy_score(y_test, y_pred)

#Devolvemos la predicción
exactitud

0.7435233160621761