# Data Analysis

Neste projeto, será analisado os dados de aplicativos do mercado da App Store e da Google Play e, desta forma, identificar quais aplicativos são mais atrativos para os usuários.

## Explorando os dados

Os dados que serão analisados são amostras dos datasets completos, somente para fins de estudos. Os datasets selecionados podem ser encontrados:

[Nesta](https://www.kaggle.com/lava18/google-play-store-apps) págida do Kaggle, para os dados da Google Play.
E [nesta](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps) página do Kaggle, para os dados da App Store.



In [1]:
from csv import reader

#abrindo o dataset IOS
opened_file = open('AppleStore.csv', encoding='utf8')
ios_file = reader(opened_file)
ios_data = list(ios_file)
ios_header = ios_data[0]
ios_data = ios_data[1:]

#abrindo dataset Android
opened_file = open('googleplaystore.csv', encoding='utf8')
android_file = reader(opened_file)
android_data = list(android_file)
android_header = android_data[0]
android_data = android_data[1:]


### Criando uma função para facilitar a exploração do dataset

Esta função faz com que possamos acessar as linhas do dataset de forma mais legível a qualquer momento.

In [2]:
def explore_data(dataset, start, end, rows_and_columns=False):
    dataset_slice = dataset[start:end]    
    for row in dataset_slice:
        print(row)
        print('\n') # para adicionar uma linha vazia entre as linhas, facilitando a leitura

    if rows_and_columns: #caso queira que também seja exibido a quantidade de linhas e colunas
        print('Number of rows:', len(dataset))
        print('Number of columns:', len(dataset[0]))
    

### Inspecionando os datasets


In [3]:
print(ios_header)
print('\n')
explore_data(ios_data, 0, 4, True)

['id', 'track_name', 'size_bytes', 'currency', 'price', 'rating_count_tot', 'rating_count_ver', 'user_rating', 'user_rating_ver', 'ver', 'cont_rating', 'prime_genre', 'sup_devices.num', 'ipadSc_urls.num', 'lang.num', 'vpp_lic']


['284882215', 'Facebook', '389879808', 'USD', '0.0', '2974676', '212', '3.5', '3.5', '95.0', '4+', 'Social Networking', '37', '1', '29', '1']


['389801252', 'Instagram', '113954816', 'USD', '0.0', '2161558', '1289', '4.5', '4.0', '10.23', '12+', 'Photo & Video', '37', '0', '29', '1']


['529479190', 'Clash of Clans', '116476928', 'USD', '0.0', '2130805', '579', '4.5', '4.5', '9.24.12', '9+', 'Games', '38', '5', '18', '1']


['420009108', 'Temple Run', '65921024', 'USD', '0.0', '1724546', '3842', '4.5', '4.0', '1.6.2', '9+', 'Games', '40', '5', '1', '1']


Number of rows: 7197
Number of columns: 16


#### IOS Data - Primeira Análise

Após uma rápida visualização dos dados acima, podemos perceber que há `7197` aplicativos IOS nesse dataset. As colunas que são interessantes para este projeto são:`'track_name'`, `'currency'`, `'price'`, `'rating_count_tot'`, `'rating_count_ver'` e `'prime_genre'`. 

Nem todas as colunas são autoexplicativas, portanto, neste caso, mais detalhes sobre elas podem ser encontrados na [documentação](https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps/home) do dataset.

Agora vamos explorar os dados dos aplicativos android!

In [4]:
print(android_header)
print('\n')
explore_data(android_data, 0, 4, True)

['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type', 'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver', 'Android Ver']


['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['Coloring book moana', 'ART_AND_DESIGN', '3.9', '967', '14M', '500,000+', 'Free', '0', 'Everyone', 'Art & Design;Pretend Play', 'January 15, 2018', '2.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 10841
Number of columns: 13


### Android Data - Primeira Análise

Há `10841` apps neste dataset da Google Play. As colunas que serão úteis para este projeto são:`'App'`, `'Category'`, `'Reviews'`, `'Installs'`, `'Type'`, `'Price'`, and `'Genres'`.

A documentação do dataset pode ser encontrada [aqui](https://www.kaggle.com/lava18/google-play-store-apps)!

## Precisão
Para`Garantir` que os dados analisados são `precisos`, será necessário: `Detectar datas incorretor, corrigi-los ou removê-los` e `Detectar dados duplicados e deleta-los`.

 - Observando a página de [discussçoes](https://www.kaggle.com/lava18/google-play-store-apps/discussion) da Google Play Store Apps, podemos ver que um dos tópicos dos debates é um `erro de linha`. Vamos fazer `loop` para `comparar` todas as linhas com o cabeçalho pata confirmar esta hipótese!
 


In [5]:
not_found = 0
for row in android_data:
    if len(row) != len(android_header): #Comparando o tamanho das linhas com o cabeçalho
        print(row)
        print("\n")
        print("Index postion is:", android_data.index(row))
    else:
        not_found += 1
print(not_found)

['Life Made WI-Fi Touchscreen Photo Frame', '1.9', '19', '3.0M', '1,000+', 'Free', '0', 'Everyone', '', 'February 11, 2018', '1.0.19', '4.0 and up']


Index postion is: 10472
10840


Desta forma pode-se perceber que a linha 10472 corresponde ao app *Life Made WI-Fi Touchscreen Photo Frame*. Comparando os valores de cada uma das colunas do app com o cabeçalho, observa-se que seu rating correspondente é 19. Esse valor nos indica um erro nos dados deste aplicativo pois o valor máximo de atribuição na avaliação de aplicativos é 5. Isto acontece pois não há um valor atribuído na coluna *'Category'* ( *Index 1* ou *2.a coluna*).

**E agora?**

As soluções para corresão seriam: tratar os dados incorretos, neste caso adicionando um valor substituto na coluna faltante, ou excluí-lo. Como trata-se comente de uma linha que não causará grande impacto no nosso projeto, o dado será deletado. 

In [6]:
not_found = 0
for row in ios_data:
    if len(row) != len(ios_header):
        print(row)
        print("\n")
        print("Index postion is:", ios_data.index(row))
    else:
        not_found += 1
print(not_found)

7197


### Deletando Dados Incorretos

De forma muito simples, a exclusão da linha 10472 do dataset android será feita através do uso da palavra chave `del`, que é utilizada para deletar objetos. 

In [7]:
print(len(android_data))
del android_data[10472] 
print(len(android_data))

10841
10840


### Lembrando que é preciso cuidado ao utilizar a palavra-chave del

Por quê? Como pode ser observado acima, após a exclusão da linha afetada, o tamanho do nosso dataset diminuiu em uma unidade. Ao usarmos novamente o comando, *outra* linha seria deletada.

Abaixo podemos ver qual aplicativo tomou o lugar do que foi deletado na linha 10472.


In [8]:
print(android_data[10472])

['osmino Wi-Fi: free WiFi', 'TOOLS', '4.2', '134203', '4.1M', '10,000,000+', 'Free', '0', 'Everyone', 'Tools', 'August 7, 2018', '6.06.14', '4.4 and up']


### Dados Duplicados

É preciso saber se há dados duplicados dentro do nosso dataset para que o projeto seja executado da melhor forma possível, para isso, será conferido o nome de todos os aplicatidos, em cada linha do dataset, e uma contagem deles será efetuada.


In [40]:
duplicate_android_apps = []   #Vetor no qual será armazenado o nome os apps duplicados
unique_android_apps = []

for app in android_data:
    name = app[0]
    if name in unique_android_apps:         #Conferindo se o nome daquele aplicativo já foi armazenado anteriormente 
        duplicate_android_apps.append(name)
    else:
        unique_android_apps.append(name)    #Aplicativos que forem identificados pela primeira vez serão armazenados aqui
        
if len(unique_android_apps) == len(android_data):
    print('There is no duplicate Data!')
else:
    ### Exibindo a quantidade de aplicativos duplicados encontrado        
    print('Number of duplicate Android apps: ', len(duplicate_android_apps))
    print('\n')
    print('Some duplicate apps: ', duplicate_android_apps[:15])

Number of duplicate Android apps:  1181


Some duplicate apps:  ['Quick PDF Scanner + OCR FREE', 'Box', 'Google My Business', 'ZOOM Cloud Meetings', 'join.me - Simple Meetings', 'Box', 'Zenefits', 'Google Ads', 'Google My Business', 'Slack', 'FreshBooks Classic', 'Insightly CRM', 'QuickBooks Accounting: Invoicing & Expenses', 'HipChat - Chat Built for Teams', 'Xero Accounting Software']


In [41]:
duplicate_ios_apps = []   #Vetor no qual será armazenado o nome os apps duplicados
unique_ios_apps = []

for app in ios_data:
    name = app[0]
    if name in unique_ios_apps:          #Conferindo se o nome daquele aplicativo já foi armazenado anteriormente 
        duplicate_ios_apps.append(name)
    else:
        unique_ios_apps.append(name)     #Aplicativos que forem identificados pela primeira vez serão armazenados aqui
        
if len(unique_ios_apps) == len(ios_data):
    print('There is no duplicate Data!')
else:
    ### Exibindo a quantidade de aplicativos duplicados encontrado      
    print('Number of duplicate Android apps: ', len(duplicate_ios_apps))
    print('\n')
    print('Some duplicate apps: ', duplicate_ios_apps[:15])

There is no duplicate Data!


Exibindo todas as linhas em que o aplicativo Instagram foi armazenado:

In [11]:
for app in android_data:
    name = app[0]
    if name == 'Instagram':
        print(app)

['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577446', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66577313', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']
['Instagram', 'SOCIAL', '4.5', '66509917', 'Varies with device', '1,000,000,000+', 'Free', '0', 'Teen', 'Social', 'July 31, 2018', 'Varies with device', 'Varies with device']


### Deletando os Dados Duplicados

Como podemos perceber visualizando as linhas acima, no *index n.3* (quarta posição), os valores da quantidade de avaliações do aplicativo varia. Isso mostra que os dados do Instagram foram captados em diferentes momentos.

Não queremos remover as linhas repetidas aleatóriamente, novamente, para que a análise seja a mais precisa possível. **Então, o que fazer?**
O fator variante no Index n.3 pode ajudar na tomada de decisão. Serão mantidas as linhas com maior número de avaliações.

Para isso, será feito o seguinte:

 - Será criado um dicionário cuja chave é o nome de um aplicativo único e seu valor é o maior número de avaliações.
 
 - Este dicionário será usado para criar um novo dataset, com somente uma única entrada por aplicativo com o seu maior número de avaliações.


In [12]:
expected_android_len = len(android_data) - len(duplicate_android_apps)
print('Expected ' + str(expected_android_len) + ' Apps after cleaning')

Expected 9659 Apps after cleaning


Há 1180 apps duplicados no dataset da Google Play Store. Subtraindo o número de aplicativos repetidos no número total de entradas no dataser, é encontrado o valor esperado da quantidade de aplicativos registrados após a limpeza.


In [42]:
reviews_max = {} #Criando o dicionário com dados únicos

for app in android_data:
    name = app[0]
    n_reviews = float(app[3]) #lembradno de converter o valor das avaliações para float
    if name in reviews_max and reviews_max[name] < n_reviews:
        reviews_max[name] = n_reviews
  
    elif name not in reviews_max:
        reviews_max[name] = n_reviews

Vimos antetiormente que o número de apps duplicados eram 1181, portanto nosso dicionário deverá conter o n.o total anterior (**10840**) *subtraído* do número de duplicados, resultando em **9659** valores.
Vamos conferir!

In [14]:
print(expected_android_len)
print(len(reviews_max))

9659
9659


Agora nós podemos, finalmente, limpar nossos dados.
A limpeza será feita da seguinte forma:

1. Criando duas listas vazias;
2. Percorrendo o dataset android;
3. Ao percorrer o dataset, isolar o nome do app e a quantidade de avaliações;
4. Armazenar a linha correspondente à lista vazia dedicada aos dados limpos.
5. Adicionar o nome do app à lista de app já verificados;
6. Os passos 4 e 5 somente serão executados se o n.o de avaliações correspondem ao número salvo no dicionário construído anteriormente **E** * obs. se o nome do app ainda não existe na lista do passo 5*.

*Manter-se atento a essa observação pois os valores de avaliações podem ser os mesmos em algumas, ou todas, repetições*

In [45]:
android_clean = [] #Passo 1
already_added = [] #Passo 1

for app in android_data: #Passo 2
    name = app[0]
    n_reviews = float(app[3])
    if (reviews_max[name] == n_reviews) and (name not in already_added): #Passo 6
        android_clean.append(app) #Passo 4
        already_added.append(name) #Passo 5

**Após a execução dos passos anteriores, o novo dataset deverá ter o mesmo número de entradas que o valor esperado:**

In [16]:
print(len(android_clean))
print(expected_android_len)

9659
9659


In [44]:
#função criada anteriormente que possibilita a exploração do dataset sempre que necessário
explore_data(android_clean, 0, 3, True) 

['Photo Editor & Candy Camera & Grid & ScrapBook', 'ART_AND_DESIGN', '4.1', '159', '19M', '10,000+', 'Free', '0', 'Everyone', 'Art & Design', 'January 7, 2018', '1.0.0', '4.0.3 and up']


['U Launcher Lite – FREE Live Cool Themes, Hide Apps', 'ART_AND_DESIGN', '4.7', '87510', '8.7M', '5,000,000+', 'Free', '0', 'Everyone', 'Art & Design', 'August 1, 2018', '1.2.4', '4.0.3 and up']


['Sketch - Draw & Paint', 'ART_AND_DESIGN', '4.5', '215644', '25M', '50,000,000+', 'Free', '0', 'Teen', 'Art & Design', 'June 8, 2018', 'Varies with device', '4.2 and up']


Number of rows: 9659
Number of columns: 13


## Removendo Apps de língua não-inglesa

In [18]:
print(ios_data[813][1])
print(ios_data[6731][1])

print(android_clean[4412][0])
print(android_clean[7940][0])

爱奇艺PPS -《欢乐颂2》电视剧热播
【脱出ゲーム】絶対に最後までプレイしないで 〜謎解き＆ブロックパズル〜
中国語 AQリスニング
لعبة تقدر تربح DZ
