# Analise de dados da APP Store e Google Play para o planejamento de uma aplicação

Este projeto tem como objetivo analisar as bases de dados relacionadas às plataformas de download "APP Store" e "Google Play", respectivamente encontradas nos dispositivos moveis mais populares do mundo, Iphones e Dispositivos Android. Para a analise temos como entrada dois arquivos, um de cada plataforma, com as informações acerca de seus apps disponiveis para download, tais como nome, avaliações, genero, etc. Através desses dados busca-se entender a demanda do usuário, auxiliando no planejamento de uma aplicação baseada nas tendencias do mercado.
Para o desenvolvimento dessa aplicação foi utilizada a linguagem Python, com auxilio da IDE Ju

### Definição da classe "Dados" e seus métodos

    Para encapsular as funções que manipulam os dados, foi criada uma classe denominada de "Dados" que conta com os métodos necessários para polir e extrair as informações que precisamimos para a analise dos dados.

In [1]:
from csv import reader
class Dados():
    
    def __init__(self, nomeArquivo):
        arquivoAberto = open(nomeArquivo,encoding='utf8')
        arquivoLido = reader(arquivoAberto)
        listaCompleta = list(arquivoLido)
        self.cabecalho = listaCompleta[0]
        self.corpo = listaCompleta[1:]
    

    def imprimirDados(self, comeco, fim):
        parte_dos_dados = self.corpo[comeco:fim]    
        for row in parte_dos_dados:
            print(row)
            print('\n')
    
    def tamanhoMatrizDeDados(self):
        print('Numero de linhas:', len(self.corpo))
        print('Numero de colunas:', len(self.corpo[0]))
    
    def identificarLinhasErradas(self):
        for row in self.corpo:
            if len(row) !=len(self.cabecalho):
                print('Linha :', (self.corpo).index(row), '\n')
    
    def deletarLinha(self, linha):
        del self.corpo[linha]
    
    def identificarAppsDuplicados(self):
        appsDuplicados = []
        appsUnicos = []

        for app in self.corpo:
            nomeApp = app[0]
            if nomeApp in appsUnicos:
                appsDuplicados.append(nomeApp)
            else:
                appsUnicos.append(nomeApp)
    
        print('Quantidade de aplicativos duplicados: ', len(appsDuplicados))
        print('\n')
        print('Examplo de apps duplicados: ', appsDuplicados[:15])
    
    def identificarAppsMaiorAvaliacao(self):
        self.maiorAvaliacao = {}
        for app in self.corpo:
            nome = app[0]
            numReviews = float(app[3])
            if nome in self.maiorAvaliacao and self.maiorAvaliacao[nome] < numReviews:
                self.maiorAvaliacao[nome] = numReviews
            elif nome not in self.maiorAvaliacao:
                self.maiorAvaliacao[nome] = numReviews
    
        print('Tamanho esperado considerando a remoção dos apps duplicados:', len(self.corpo) - 1181)
        print('Tamanho atual:', len(self.maiorAvaliacao))

    def filtrarAplicativosMaiorAvaliacao(self):
        arquivoFiltrado = []
        appsJaAdicionados = []
        for app in self.corpo:
            nome = app[0]
            numReviews = float(app[3])
            if (self.maiorAvaliacao[nome] == numReviews) and (nome not in appsJaAdicionados):
                arquivoFiltrado.append(app)
                appsJaAdicionados.append(nome)

        self.corpo = arquivoFiltrado
        self.imprimirDados(0, 5)
        self.tamanhoMatrizDeDados()
    
    def appIngles(self, nomeApp):
        naoAscii = 0
        for character in nomeApp:
            if ord(character) > 127:
                naoAscii += 1
        if naoAscii > 3:
            return False
        else:
            return True
    
    def removerAppsEstrangeiros(self, indiceNome):
        appsIngles = []
        for app in self.corpo:
            nome = app[indiceNome]
            if self.appIngles(nome) == True:
                appsIngles.append(app)
        self.corpo = appsIngles
        self.imprimirDados(0, 5)
        self.tamanhoMatrizDeDados()
        
    def filtroAppsGratuitos(self, indicePreco):
        listaFiltrada = []
        for app in self.corpo:
            preco = app[indicePreco]
            if preco == '0':
                listaFiltrada.append(app)
        
        self.corpo = listaFiltrada
        self.imprimirDados(0, 5)
        self.tamanhoMatrizDeDados()

## Abertura e leitura dos arquivos contendo os dados

In [2]:
dadosIOS = Dados('AppleStore.csv')
dadosIOS.imprimirDados(0, 5)
dadosIOS.tamanhoMatrizDeDados()

['1', '281656475', 'PAC-MAN Premium', '100788224', 'USD', '3.99', '21292', '26', '4', '4.5', '6.3.5', '4+', 'Games', '38', '5', '10', '1']


['2', '281796108', 'Evernote - stay organized', '158578688', 'USD', '0', '161065', '26', '4', '3.5', '8.2.2', '4+', 'Productivity', '37', '5', '23', '1']


['3', '281940292', 'WeatherBug - Local Weather, Radar, Maps, Alerts', '100524032', 'USD', '0', '188583', '2822', '3.5', '4.5', '5.0.0', '4+', 'Weather', '37', '5', '3', '1']


['4', '282614216', 'eBay: Best App to Buy, Sell, Save! Online Shopping', '128512000', 'USD', '0', '262241', '649', '4', '4.5', '5.10.0', '12+', 'Shopping', '37', '5', '9', '1']


['5', '282935706', 'Bible', '92774400', 'USD', '0', '985920', '5320', '4.5', '5', '7.5.1', '4+', 'Reference', '37', '5', '45', '1']


Numero de linhas: 7197
Numero de colunas: 17


In [3]:
dadosANDROID = Dados('googleplaystore.csv')
dadosANDROID.imprimirDados(0, 5)
dadosANDROID.tamanhoMatrizDeDados()

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']


Numero de linhas: 10841
Numero de colunas: 13


## Filtragem dos dados

### Remoção de apps com incosistencias

Antes de analisarmos os dados é importante cogitar a possibilidade de linhas com dados errados, que devem ser removidas afim de não "corromper" nossa analise. Para isso utilizamos o metodo "identificarLinhasErradas()" que vai comparar o numero de colunas de cada linha com o numero de colunas do cabeçalho.

In [4]:
dadosANDROID.identificarLinhasErradas()
dadosIOS.identificarLinhasErradas()

Linha : 10472 



Ao executar o comando para ambas as listas de dados apenas o arquivo com os aplicativos android apresentou uma linha "corrompida". Para elimina-la utilizaremos o metodo deletarLinha(). 

In [5]:
dadosANDROID.tamanhoMatrizDeDados()
dadosANDROID.deletarLinha(10472)
print('Deleção realizada')
dadosANDROID.tamanhoMatrizDeDados()

Numero de linhas: 10841
Numero de colunas: 13
Deleção realizada
Numero de linhas: 10840
Numero de colunas: 13


### Removendo apps duplicados

Removidas as linhas problemáticas, outro fator com que devemos nos preocupar é com aplicativos duplicados, já que queremos fazer uma analise a partir de dados unicos. Dessa forma, inicialmente devemos identificar esses aplicativos, vamos fazer isso através do método "identificarAppsDuplicados()".

In [6]:
print('Apps ANDROID duplicados: \n')
dadosANDROID.identificarAppsDuplicados()
print('----------------------------------------')
print('Apps IOS duplicados: \n')
dadosIOS.identificarAppsDuplicados()

Apps ANDROID duplicados: 

Quantidade de aplicativos duplicados:  1181


Examplo de apps duplicados:  ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']
----------------------------------------
Apps IOS duplicados: 

Quantidade de aplicativos duplicados:  0


Examplo de apps duplicados:  []


Percebemos que apenas os aplicativos do Google Play(ANDROID) apresentam apps duplicados, sendo assim, devemos eliminar as copias dos apps duplicados afim que sejam unicos na lista. Se verificarmos os dados, embora possuam o mesmo nome, alguns aplicativos duplicados possuem informações diferentes, sendo assim é necessário pensar estrategicamente em quais linhas vao ser mantidas de forma a deixar aquela que ofereça mais precisão à nossa analise. Uma das formas de fazer essa seleção é identificando, entre os aplicativos duplicados, quais tem mais avaliação, mantendo-os na lista.

In [7]:
dadosANDROID.identificarAppsMaiorAvaliacao()


Tamanho esperado considerando a remoção dos apps duplicados: 9659
Tamanho atual: 9659


Filtrados os aplicativos de maior avaliação, os temos armazenados em um dicionario, a partir deste dicionario vamos adicionar os aplicativos a nossa lista de forma que ela fique atualizada apenas com os aplicativos unicos. Faremos essa alteração a partir do metodo "filtrarAplicativosMaiorAvaliacao()".

In [8]:
dadosANDROID.filtrarAplicativosMaiorAvaliacao()

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']


['Paper flowers instructions', 'ART_AND_DESIGN', '4.4', '167', '5.6M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'March 26, 2017', '1.0', '2.3 and up']


Numero de linhas: 9659
Numero de colunas: 13


Outro fator possivel de se observar no codigo é a presença de aplicativos em outras linguas fora o ingles. Para este projeto vamos padronizar a analise levantando apenas os que estão com o titulo em inglês. Para isso foi desenvolvido um algoritmo utilizado para saber se o nome do aplicativo possui algum caracter fora do padrao ingles. No python podemos fazer isso atraves da função "ord" que identifica a posição de um caracter na memoria e o numera. Para python, os caracteres comuns na lingua inglesa sao numerados até o 127, referenciando a tabela ascii, sendo assim, consideraremos os caracteres adiante como "estrangeiros". Embora seja uma boa logica temos que usa-la com cautela ja que alguns nomes de apps possuem caracteres de estilização, que seriam confundidos pelo algoritmo com apps estrangeiros.
Para evitar que aplicativos que possuam caracteres estranhos de estilização, limitamos esse numero de caracteres a 3.

### Removendo apps "Estrangeiros"

In [9]:
print("Apps ANDROID em ingles: \n")
dadosANDROID.removerAppsEstrangeiros(0)
print("\n ----------------------------------------------------------------- \n")
print("Apps IOS em ingles: \n")
dadosIOS.removerAppsEstrangeiros(2)

Apps ANDROID em ingles: 

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']


['Paper flowers instructions', 'ART_AND_DESIGN', '4.4', '167', '5.6M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'March 26, 2017', '1.0', '2.3 and up']


Numero de linhas: 9614
Numero de colunas: 13

 ------------------

### Removendo apps pagos

Por fim, uma ultima filtragem que queremos fazer é no valor dos apps, como queremos visar a quantidade de downloads do nosso app é interessante que ele seja gratuito, dessa forma vamos filtrar apenas os apps gratuitos das plataformas. O algoritmo para esse filtro é simples, basicamente as colunas de preço serão checadas app por app e comparadas ao valor '0' que indica que o app é gratuito. Esse algoritmo sera implementado no metodo "filtroAppsGratuitos()"

In [10]:
print("Lista final de APPS ANDROID: \n")
dadosANDROID.filtroAppsGratuitos(7)
print("\n ----------------------------------------------------------------- \n")
print("Lista final de APPS IOS: \n")
dadosIOS.filtroAppsGratuitos(5)

Lista final de APPS ANDROID: 

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


['Pixel Draw - Number Art Coloring Book', 'ART_AND_DESIGN', '4.3', '967', '2.8M', '100,000+', 'Free', '0', 'Everyone', 'Art & Design;Creativity', 'June 20, 2018', '1.1', '4.4 and up']


['Paper flowers instructions', 'ART_AND_DESIGN', '4.4', '167', '5.6M', '50,000+', 'Free', '0', 'Everyone', 'Art & Design', 'March 26, 2017', '1.0', '2.3 and up']


Numero de linhas: 8864
Numero de colunas: 13

 -------------