# **Prediciendo el Rating de las aplicaciones en Google PlayStore**

![](https://www.datasource.ai/uploads/e33dc9d94a413913f6a65caa5e0d4b75.png)

Competencia en [DatasourceAI](https://www.datasource.ai/es/home/data-science-competitions-for-startups/prediciendo-el-rating-de-las-aplicaciones-en-google-play-store):

DataSource nos provee un problema de **clasificación** en el que basándonos en los datos de una aplicación, tendremos que predecir su **Rating**

La escala del **Rating** se transformó en 2 clases:

- **0** si el Rating es menor o igual que 4 (Rating <= 4.0)

- **1** si el Rating en mayor a 4 (Rating > 4.0)


# **Pregunta 1**

En esta pregunta tienes que cargar las librerías necesarias para armar tu modelo de clasificación.

Importa **Pandas** para leer datos\
Importa **Missingno** para identificar nulos.\
Importa **Seaborn** para identificar outliers.\
Importa **train_test_split** de Sklearn para dividir los datos\
Importa **RandomForestClassifier** y **LogisticRegression** de Sklearn para armar tus modelos\
Importa **accuracy_score** de Sklearn para medir la precisión de tus modelos.  \\

Finalmente **utiliza pandas** para leer los datos que se encuentran en el siguiente enlace:
https://raw.githubusercontent.com/HackSpacePeru/Datasets_intro_Data_Science/master/google_playstore.csv


In [3]:
#importamos pandas como pd
import pandas as pd

#importamos mssingno como msno
import missingno as msno

#importamos seaborn como sns
import seaborn as sns

#importamos train_test_split
from sklearn.model_selection import train_test_split

#importamos accuacy_score
from sklearn.metrics import accuracy_score

#importamos RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

#importamos LogisticRegression
from sklearn.linear_model import LogisticRegression

#Importamos numpy
import numpy as np


ModuleNotFoundError: No module named 'missingno'

In [4]:
#Leeremos los datos
df = pd.read_csv("https://raw.githubusercontent.com/HackSpacePeru/Datasets_intro_Data_Science/master/google_playstore.csv")

#Devolvemos los datos
df.head()

Unnamed: 0,Category,Rating,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
0,133,1.0,149723,541,Free,0.0,4764,0.768336,761
1,219,0.0,853,661,Free,0.0,4764,0.641972,1317
2,67,1.0,61881,356,Free,0.0,4764,1.172458,582
3,508,0.0,21943,356,Free,0.0,4764,0.757642,381
4,1114,1.0,6,536,Free,0.0,4764,1.058965,1317


# **Pregunta 2**

En esta pregunta tienes que realizar todo el **Preprocesamiento** requerido para tu modelo de clasificación.

 - Detecta y reemplaza aquella columna que tiene datos categóricos
 - Identifica si hay o no valores nulos en los datos, de ser así, reemplázalos por la media o moda.


In [3]:
#Vamos a predecir el Rating
df['Rating']

0       1.0
1       0.0
2       1.0
3       0.0
4       1.0
       ... 
5783    1.0
5784    0.0
5785    1.0
5786    1.0
5787    1.0
Name: Rating, Length: 5788, dtype: float64

In [4]:
df['Type']=pd.get_dummies(df['Type'])

df

Unnamed: 0,Category,Rating,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
0,133,1.0,149723,541,1,0.00,4764,0.768336,761
1,219,0.0,853,661,1,0.00,4764,0.641972,1317
2,67,1.0,61881,356,1,0.00,4764,1.172458,582
3,508,0.0,21943,356,1,0.00,4764,0.757642,381
4,1114,1.0,6,536,1,0.00,4764,1.058965,1317
...,...,...,...,...,...,...,...,...,...
5783,195,1.0,69119316,12,1,0.00,4764,0.306677,582
5784,170,0.0,44,536,1,0.00,4764,0.644734,143
5785,46,1.0,3005,623,0,2.99,4764,0.754550,846
5786,1114,1.0,708,298,1,0.00,4764,0.559427,137


In [5]:
#Reemplazar datos datos nulos por moda o media
#Vamos a buscar valores nulos
df.isnull().values.any()

False

In [6]:
#Devolvemos los datos si tenemos nulos
df.isnull()

Unnamed: 0,Category,Rating,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
5783,False,False,False,False,False,False,False,False,False
5784,False,False,False,False,False,False,False,False,False
5785,False,False,False,False,False,False,False,False,False
5786,False,False,False,False,False,False,False,False,False


In [21]:
#Declaramos la secuencia mayor a 4
x_train = df.drop('Rating', axis=1)

#Segunda declaracion pero menor a 4
y_train = df['Rating']

#values.counts() = cuenta los numeros que coinciden
y_train.value_counts()

#Devolvemos los datos
print("\nEs menor a 4:", y_train.value_counts())


Es menor a 4: 1.0    4317
0.0    1471
Name: Rating, dtype: int64


In [22]:
#Declaramos la secuencia mayor a 4
x_test = df.drop('Rating', axis=1)

#Segunda declaracion pero menor a 4
y_test = df['Rating']

#values.counts() = cuenta los numeros que coinciden
y_train.value_counts()

#Devolvemos los datos
print("\nEs menor a 4:", y_train.value_counts())


Es menor a 4: 1.0    4317
0.0    1471
Name: Rating, dtype: int64


# **Pregunta 3**

En esta pregunta deberás realizar la partición de los datos en train y test.

- Utiliza el método de **train_test_split** reservando el **20%** para test.


In [23]:
#Preparamos el modelo train_test_split
X_train, X_test, y_train, y_test = train_test_split(x_train, y_train, test_size=0.2)

In [24]:
X_train

Unnamed: 0,Category,Reviews,Installs,Type,Price,Content Rating,Genres,Android Ver
3195,581,145353,541,1,0.00,597,0.845843,1317
3035,204,800,298,1,0.00,4764,0.611352,481
4021,1114,64884,356,1,0.00,4764,0.589227,164
3112,170,141163,541,1,0.00,4764,0.319169,582
515,219,50338,841,1,0.00,4764,0.636299,582
...,...,...,...,...,...,...,...,...
5445,170,0,237,1,0.00,4764,1.009833,1317
5156,119,14,190,0,0.99,4764,0.965415,64
1817,212,5,448,0,0.99,4764,0.586832,25
2229,74,88,282,1,0.00,4764,0.671677,846


In [25]:
y_train

3195    1.0
3035    0.0
4021    1.0
3112    1.0
515     1.0
       ... 
5445    1.0
5156    1.0
1817    1.0
2229    1.0
3064    1.0
Name: Rating, Length: 4630, dtype: float64

In [None]:
#Comprobamos si x_test esta bien
print('',x_test)

#Comprobamos si y_test esta bien
y_test

# **Pregunta 4**

En esta pregunta debes realizar el **Modelamiento**. Utiliza **train** (X_train, y train) para entrenar:
- Un modelo de clasificación con **Random Forest**
- Un modelo de clasificación con **Regresión Logistica**

In [14]:
#Create del modelo
rf = RandomForestClassifier(n_jobs = -1,max_depth=3,random_state=1) #creamos la variable rf para guardar el modelo con los parámetros deseados
rf.fit(X_train,y_train) #entrenamos con datos guardados en X_train, y_train
rf_pred = rf.predict(X_test) #generamos las predicciones usando como variables predictoras los datos en X_test
rf_pred #mostramos las predicciones guardadas en la variable rf_pred

array([1., 1., 1., ..., 1., 1., 1.])

In [15]:
#Importamos sklear.metrics
from sklearn.metrics import confusion_matrix, classification_report

#Instacia del clasificacion: logreg
logreg = LogisticRegression()

#Clasificacdor a los de entrenamiento
logreg.fit(X_train, y_train)

#Modelo de prueba para que haga predicciones después del entrenamiento: y_pred
y_pred = logreg.predict(X_test)

print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[  0 295]
 [  1 862]]
              precision    recall  f1-score   support

         0.0       0.00      0.00      0.00       295
         1.0       0.75      1.00      0.85       863

    accuracy                           0.74      1158
   macro avg       0.37      0.50      0.43      1158
weighted avg       0.56      0.74      0.64      1158



# **Pregunta 5**

En esta pregunta debes realizar la **Evaluación** de ambos modelos:
 - Genera las **predicciones** utilzando **X_test** para ambos modelos
 - Evalúa el rendimiento de cada modelo utilizando **accuracy_score** para comparar y_test versus tus predicciones.

In [17]:
#Donde sklearn.metrics importamos accury_score
from sklearn.metrics import accuracy_score

#Hacemos las predicciones
accuracy_score(X_test, y_pred)

ValueError: Classification metrics can't handle a mix of continuous-multioutput and binary targets

Finalmente comenta **cuál modelo escogerías** y por qué.