# Imports

In [1]:
import pandas as pd
import numpy as np
import re
import os
from typing import Callable
from functools import partial

# Taking a look

In [2]:
df = pd.read_csv('Data/googleplaystore.csv')

In [3]:
df.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


In [4]:
df.shape

(10841, 13)

## Finding null values:

In [5]:
columns_with_null = [c for c in df.columns if df[c].isnull().values.any()]; columns_with_null

['Rating', 'Type', 'Content Rating', 'Current Ver', 'Android Ver']

In [6]:
d = {c : df[c].isnull().sum() for c in df.columns if df[c].isnull().values.any()}; d

{'Rating': 1474,
 'Type': 1,
 'Content Rating': 1,
 'Current Ver': 8,
 'Android Ver': 3}

Podemos ver que os valores nulos podem ser removidos facilmente de todas as colunas com exceção de Rating, que possui muitos (embora ainda não seja muito significativo pelo tamanho do dataset).

## Finding inconsistent values:

In [7]:
def finding_inconsistency_by_threshold(df, column, min_thresh=0, max_thresh=None):
    if(max_thresh == None): return [df[df[column].astype(float) < min_thresh]]
    return pd.concat([df[df[column].astype(float) < min_thresh], df [df[column].astype(float) > max_thresh]], join='outer')

In [8]:
finding_inconsistency_by_threshold(df, 'Rating', 1, 5)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10472,Life Made WI-Fi Touchscreen Photo Frame,1.9,19.0,3.0M,"1,000+",Free,0,Everyone,,"February 11, 2018",1.0.19,4.0 and up,


Infelizmente todas as outras colunas numericas terão de ser tratadas para funconar como tal. Vamos fazer isso, então!

### Converting to numeric

#### Price

In [9]:
np.unique(df['Price'], return_counts=True)

(array(['$0.99', '$1.00', '$1.04', '$1.20', '$1.26', '$1.29', '$1.49',
        '$1.50', '$1.59', '$1.61', '$1.70', '$1.75', '$1.76', '$1.96',
        '$1.97', '$1.99', '$10.00', '$10.99', '$109.99', '$11.99',
        '$12.99', '$13.99', '$14.00', '$14.99', '$15.46', '$15.99',
        '$154.99', '$16.99', '$17.99', '$18.99', '$19.40', '$19.90',
        '$19.99', '$2.00', '$2.49', '$2.50', '$2.56', '$2.59', '$2.60',
        '$2.90', '$2.95', '$2.99', '$200.00', '$24.99', '$25.99', '$28.99',
        '$29.99', '$299.99', '$3.02', '$3.04', '$3.08', '$3.28', '$3.49',
        '$3.61', '$3.88', '$3.90', '$3.95', '$3.99', '$30.99', '$33.99',
        '$37.99', '$379.99', '$389.99', '$39.99', '$394.99', '$399.99',
        '$4.29', '$4.49', '$4.59', '$4.60', '$4.77', '$4.80', '$4.84',
        '$4.85', '$4.99', '$400.00', '$46.99', '$5.00', '$5.49', '$5.99',
        '$6.49', '$6.99', '$7.49', '$7.99', '$74.99', '$79.99', '$8.49',
        '$8.99', '$89.99', '$9.00', '$9.99', '0', 'Everyone'], dtype=

vamos ter um problema terrível com esse everyone, pois é um texto que não é facilmente convertido para float. Temos duas opções: ou excluimos esse registro ou mudamos ele para 0. Eu vou optar por excluir, pois não faço ideia do que ele significa. 

In [10]:
i_drop = df[df['Price'] == 'Everyone'].index

In [11]:
df = df.drop(i_drop)

Podemos converter agora facilmente os numeros usando uma expressão regular: 

In [12]:
test_string = "$4.9"

In [13]:
g = re.search('\$(\d+.\d+)', test_string)

In [14]:
g[1]

'4.9'

Porém como o dataset possui numeros puros (0) não podemos passar essa expressão em tudo. Temos então que usar uma lógica mais complexa. Felizmente o pandas nos deixa passar uma função em cada linha de uma coluna usando a função apply()

In [15]:
df['Price'] = df['Price'].apply(lambda x : re.search('\$(\d+.\d+)', x)[1] if re.search('\$(\d+.\d+)', x) else x).astype(float)

In [16]:
df

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0.0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0.0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0.0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0.0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0.0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10836,Sya9a Maroc - FR,FAMILY,4.5,38,53M,"5,000+",Free,0.0,Everyone,Education,"July 25, 2017",1.48,4.1 and up
10837,Fr. Mike Schmitz Audio Teachings,FAMILY,5.0,4,3.6M,100+,Free,0.0,Everyone,Education,"July 6, 2018",1.0,4.1 and up
10838,Parkinson Exercices FR,MEDICAL,,3,9.5M,"1,000+",Free,0.0,Everyone,Medical,"January 20, 2017",1.0,2.2 and up
10839,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,Varies with device,"1,000+",Free,0.0,Mature 17+,Books & Reference,"January 19, 2015",Varies with device,Varies with device


#### Size 

In [17]:
np.unique(df['Size'], return_counts=True)

(array(['1.0M', '1.1M', '1.2M', '1.3M', '1.4M', '1.5M', '1.6M', '1.7M',
        '1.8M', '1.9M', '10.0M', '100M', '1020k', '103k', '108k', '10M',
        '116k', '118k', '11M', '11k', '121k', '122k', '12M', '13M', '141k',
        '143k', '144k', '14M', '14k', '153k', '154k', '157k', '15M',
        '160k', '161k', '164k', '169k', '16M', '170k', '172k', '173k',
        '175k', '176k', '17M', '17k', '186k', '18M', '18k', '190k', '191k',
        '192k', '193k', '196k', '19M', '2.0M', '2.1M', '2.2M', '2.3M',
        '2.4M', '2.5M', '2.6M', '2.7M', '2.8M', '2.9M', '200k', '201k',
        '203k', '206k', '208k', '209k', '20M', '20k', '210k', '219k',
        '21M', '220k', '221k', '222k', '226k', '228k', '22M', '232k',
        '234k', '237k', '238k', '239k', '23M', '23k', '240k', '241k',
        '243k', '245k', '246k', '24M', '24k', '251k', '253k', '257k',
        '259k', '25M', '25k', '266k', '269k', '26M', '26k', '270k', '27M',
        '27k', '280k', '283k', '288k', '28M', '28k', '292k', '293

Aqui nós temos uma decisão mais complicada, porque a mior parte dos nossos dados está com o tamanho variado por dispositivo. É muito difícil sabermos se isso é um fator descritivo para o que desejamos fazer depois. Nós poderíamos também trocar isso por um número coringa que não está presente no dataset. Outra possibilidade seria categorizarmos todas as variáveis, afinal podemos ver espaços de tamanhos bem definidos. O fato de um aplicativo estar na casa dos KBs e outro nos MBs é mais categórico em vez de constante, provavelmente o tamanho do arquivo exato não irá fazer diferença mas sim o fato de ele ser considerado pesado ou não.

O problema é que isso ainda não resolve a qeustão do tamanho variar de acordo com o sistema para o qual ela foi portada. O ideal seria que os dados já tivessem sido catalogados pensando nisso. Essa coluna infelizmente é difícil de resolver e talvez a opção mais viável seria excluir 1695 registro e categorizar os outros em Leve, Médio e Pesado.

Irei optar por deixar esses dados parados até a aplicação de um modelo mias concreto.

#### Installs

In [18]:
np.unique(df['Installs'], return_counts=True)

(array(['0', '0+', '1+', '1,000+', '1,000,000+', '1,000,000,000+', '10+',
        '10,000+', '10,000,000+', '100+', '100,000+', '100,000,000+', '5+',
        '5,000+', '5,000,000+', '50+', '50,000+', '50,000,000+', '500+',
        '500,000+', '500,000,000+'], dtype=object),
 array([   1,   14,   67,  907, 1579,   58,  386, 1054, 1252,  719, 1169,
         409,   82,  477,  752,  205,  479,  289,  330,  539,   72],
       dtype=int64))

Esse pode ser convertido facilmente! Um detalhe que ficou bem claro agora é que esses dados já estão em maneira categória, porém algumas das categorias não são expressivas. Ter uma categorias 0, 0+, 1+, 10+, 5+ não parece muito relevante. Vou optar por dividir em categorias 0-50 (aplicações com possível prejuizo), 50-100(aplicações que não tiveram muito lucro, mas se forem feitas por desenvolvedores pequenos provavelmente se pagaram) e as outras deixarei exatamente igual. Não irei substituir o +, para deixar claro que são variáveis categóricas.


O principal problema no tratamento desses dados é o mal uso dos separados decimais, mas a verdade é que não precisamos nos importar com isso. Os únicos dados que iremos mexer não possuem , . Mas só para melhorar esse tratamento irei substituir os dados pelos números devidos.

In [19]:
def eliminating_some_categories_on_installs(current_value): 
    current_value = current_value.replace('000,000', '000000')
    current_value = current_value.replace(',', '.')
    if(re.search('\d+\.', current_value)): return current_value
    if(int(re.search('\d+', current_value)[0]) < 50): 
        return "0+"
    return current_value

In [20]:
 np.unique(df['Installs'].apply(eliminating_some_categories_on_installs), return_counts=True)

(array(['0+', '1.000+', '1.000000+', '1.000000.000+', '10.000+',
        '10.000000+', '100+', '100.000+', '100.000000+', '5.000+',
        '5.000000+', '50+', '50.000+', '50.000000+', '500+', '500.000+',
        '500.000000+'], dtype=object),
 array([ 550,  907, 1579,   58, 1054, 1252,  719, 1169,  409,  477,  752,
         205,  479,  289,  330,  539,   72], dtype=int64))

In [21]:
df['Installs'] = df['Installs'].apply(eliminating_some_categories_on_installs)

## Finishing the work

Agora que tratamos todas as incosistências, falta algo muito importante: Lidar com os dados nulos.

Acontece que a mior parte deles está no nosso parâmetro mais importante, inclusive nosso provável target: O rating

In [22]:
df[df['Rating'].isnull()]

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
23,Mcqueen Coloring pages,ART_AND_DESIGN,,61,7.0M,100.000+,Free,0.0,Everyone,Art & Design;Action & Adventure,"March 7, 2018",1.0.0,4.1 and up
113,Wrinkles and rejuvenation,BEAUTY,,182,5.7M,100.000+,Free,0.0,Everyone 10+,Beauty,"September 20, 2017",8.0,3.0 and up
123,Manicure - nail design,BEAUTY,,119,3.7M,50.000+,Free,0.0,Everyone,Beauty,"July 23, 2018",1.3,4.1 and up
126,Skin Care and Natural Beauty,BEAUTY,,654,7.4M,100.000+,Free,0.0,Teen,Beauty,"July 17, 2018",1.15,4.1 and up
129,"Secrets of beauty, youth and health",BEAUTY,,77,2.9M,10.000+,Free,0.0,Mature 17+,Beauty,"August 8, 2017",2.0,2.3 and up
...,...,...,...,...,...,...,...,...,...,...,...,...,...
10824,Cardio-FR,MEDICAL,,67,82M,10.000+,Free,0.0,Everyone,Medical,"July 31, 2018",2.2.2,4.4 and up
10825,Naruto & Boruto FR,SOCIAL,,7,7.7M,100+,Free,0.0,Teen,Social,"February 2, 2018",1.0,4.0 and up
10831,payermonstationnement.fr,MAPS_AND_NAVIGATION,,38,9.8M,5.000+,Free,0.0,Everyone,Maps & Navigation,"June 13, 2018",2.0.148.0,4.0 and up
10835,FR Forms,BUSINESS,,0,9.6M,0+,Free,0.0,Everyone,Business,"September 29, 2016",1.1.5,4.0 and up


Esses dados, por mais que sejam muitos, simplesmente não podem ser utilizados sem enviesar o banco e portanto teremos de remover todos. Nós até poderíamos substituir os outros valores nulos, mas eles são tão poucos não vale o trabalho. Até porque substituir uma versão também seria muito complicado. Então para finalizar o dataset eu decidi simplesmente eliminar todos os nulos.

In [23]:
df.dropna(inplace=True)

In [24]:
def save_dataset(df, path):
    directories = path.split('/')
    file_name = directories[-1]
    directories = directories[0:-1]
    
    for path in directories:
        if not os.path.exists(path):
            os.mkdir(path)
        os.chdir(path)
    
    df.to_csv(file_name)

In [25]:
save_dataset(df, "Modified/GooglePlayTreatedData.csv")

Data
Modified


# Designing Transforms

Uma boa forma de fazer isso seria com classes auxiliares:

In [26]:
class data_cleaner:
    def __init__(self, df : pd.DataFrame):
        self.df = df
        self.cbs = []
            
    def compose_callback(self, cb : Callable[[pd.DataFrame], pd.DataFrame]):
        self.cbs.append(cb)
        
    def remove_callback(self, cb : Callable[[pd.DataFrame], pd.DataFrame]):
        self.cbs.remove(cb)
        
    def __call__(self):
        transformed_df = self.df
        for cb in self.cbs:
            trasnformed_df = cb(transformed_df)
            
        return transformed_df
    

In [27]:
dc = data_cleaner(df)

In [28]:
def cleaner_callback_template(columns, transformation, df):
    for colum in columns:
        df[colum] = transformation(df[colum])
    return df