# Import Library

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
pd.set_option("display.max_columns", None)

---

# Thu thập dữ liệu

**Dữ liệu được sử dụng trong NoteBook này là thông tin về các phần mềm có trên của hàng Google Play Store của hệ điều hành Android.**
> Điện thoại thông minh sử dụng hệ điều hành Android bán chạy nhất trên toàn thế giới kể từ năm 2011 và trên máy tính bảng kể từ năm 2013. Tính đến tháng 5 năm 2017, nó có hơn hai tỷ người dùng hoạt động hàng tháng, cơ sở được cài đặt lớn nhất trong số các hệ điều hành và tính đến tháng 8 năm 2020, Google Play Store có hơn 3 triệu ứng dụng.

**Phần mô tả của dữ liệu:**
> **Context**:\
While many public datasets (on Kaggle and the like) provide Apple App Store data, there are not many counterpart datasets available for Google Play Store apps anywhere on the web. On digging deeper, I found out that iTunes App Store page deploys a nicely indexed appendix-like structure to allow for simple and easy web scraping. On the other hand, Google Play Store uses sophisticated modern-day techniques (like dynamic page load) using JQuery making scraping more challenging.
>
>**Content**:\
Each app (row) has values for catergory, rating, size, and more.
>
>**Acknowledgements:**\
This information is scraped from the Google Play Store. This app information would not be available without it.
>
>**Inspiration:**\
The Play Store apps data has enormous potential to drive app-making businesses to success. Actionable insights can be drawn for developers to work on and capture the Android market!

**Dữ liệu này được Public trên trang Kaggle nhằm mục đích học tập với license như sau:**
> This work is licensed under the Creative Commons Attribution 3.0 Unported License. To view a copy of this license, visit http://creativecommons.org/licenses/by/3.0/.

**Theo mô tả của tập dữ liệu thì:**
- Dữ liệu này được thu thập từ trang Google Play Store và chỉ gồm những thông tin của những phần mềm hiện đang có trên Google Play Store.

**Cám ơn [Lavanya](@lavanyagupta) đã cung cấp tập dữ liệu này**

**Mình download dữ liệu tại đây [kaggle](https://www.kaggle.com/lava18/google-play-store-apps?select=googleplaystore.csv)**

---

# Khám phá dữ liệu

## Đọc dữ liệu từ file .csv

**Tập dữ liệu `googleplaystore.csv`**

In [2]:
apps = pd.read_csv("../Data/googleplaystore.csv")

Hiển thị vài dòng đầu:

In [3]:
apps.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


Hiển thị vài dòng cuối:

In [4]:
apps.tail()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10836,Sya9a Maroc - FR,FAMILY,4.5,38,53M,"5,000+",Free,0,Everyone,Education,"July 25, 2017",1.48,4.1 and up
10837,Fr. Mike Schmitz Audio Teachings,FAMILY,5.0,4,3.6M,100+,Free,0,Everyone,Education,"July 6, 2018",1.0,4.1 and up
10838,Parkinson Exercices FR,MEDICAL,,3,9.5M,"1,000+",Free,0,Everyone,Medical,"January 20, 2017",1.0,2.2 and up
10839,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,Varies with device,"1,000+",Free,0,Mature 17+,Books & Reference,"January 19, 2015",Varies with device,Varies with device
10840,iHoroscope - 2018 Daily Horoscope & Astrology,LIFESTYLE,4.5,398307,19M,"10,000,000+",Free,0,Everyone,Lifestyle,"July 25, 2018",Varies with device,Varies with device


**Tập dữ liệu `googleplaystore_user_reviews.csv`**

In [5]:
reviews = pd.read_csv("../Data/googleplaystore_user_reviews.csv")

Hiển thị vài dòng đầu:

In [6]:
reviews.head()

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
0,10 Best Foods for You,I like eat delicious food. That's I'm cooking ...,Positive,1.0,0.533333
1,10 Best Foods for You,This help eating healthy exercise regular basis,Positive,0.25,0.288462
2,10 Best Foods for You,,,,
3,10 Best Foods for You,Works great especially going grocery store,Positive,0.4,0.875
4,10 Best Foods for You,Best idea us,Positive,1.0,0.3


Hiển thị vài dòng cuối:

In [7]:
reviews.tail()

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
64290,Houzz Interior Design Ideas,,,,
64291,Houzz Interior Design Ideas,,,,
64292,Houzz Interior Design Ideas,,,,
64293,Houzz Interior Design Ideas,,,,
64294,Houzz Interior Design Ideas,,,,


## Dữ liệu có bao nhiêu dòng và bao nhiêu cột?

In [8]:
apps_nrows, apps_ncols = apps.shape

print("Apps Dataset have {} rows and {} columns".format(apps_nrows, apps_ncols))

Apps Dataset have 10841 rows and 13 columns


In [9]:
reviews_nrows, reviews_ncols = reviews.shape

print("Reviews Dataset have {} rows and {} columns".format(reviews_nrows, reviews_ncols))

Reviews Dataset have 64295 rows and 5 columns


## Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

- Ở tập dữ liệu `googleplaystore.csv`:
    - Mỗi 1 dòng là 1 reviews về 1 phần mềm nào đó (các phần mêm có thể trùng nhau).
- Ở tập dữ liệu `googleplaystore_user_reviews.csv`
    - Mỗi 1 dòng là 1 thông tin về 1 phần mềm hiện đang có trong Google Play Store.

## Dữ liệu có các dòng bị lặp không?

In [10]:
num_duplicated_apps = len(apps) - len(apps.drop_duplicates())

print("Number of duplicated rows in Apps Dataset: {}".format(num_duplicated_apps))

Number of duplicated rows in Apps Dataset: 483


$\to$ tiến hành xóa các dòng bị trùng lắp.

In [11]:
apps.drop_duplicates(keep="first", inplace=True)

`shape` của tập dữ liệu sau khi xóa các dòng trùng lắp

In [12]:
apps.shape

(10358, 13)

In [13]:
num_duplicated_reviews = len(reviews) - len(reviews.drop_duplicates())

print("Number of duplicated rows in Reviews Dataset: {}".format(num_duplicated_reviews))

Number of duplicated rows in Reviews Dataset: 33616


$\to$ tiến hành xóa các dòng bị trùng lắp.

In [14]:
reviews.drop_duplicates(inplace=True)

`shape` của tập dữ liệu sau khi xóa các dòng trùng lắp

In [15]:
reviews.shape

(30679, 5)

## Mỗi cột có ý nghĩa gì?

**Tập dữ liệu `googleplaystore.csv`**
> Details of the applications on Google Play. There are 13 features thstrong strong texttextat describe a given app.. Expilo. Ed

|tên cột|ý nghĩa|
|-|-|
|App|Application name|
|Category|Category the app belongs to|
|Rating|Overall user rating of the app (as when scraped)|
|Reviews|Number of user reviews for the app (as when scraped)|
|Size|Size of the app (as when scraped)|
|Installs|Number of user downloads/installs for the app (as when scraped)|
|Type|Paid or Free|
|Price|Price of the app (as when scraped)|
|Content Rating|Age group the app is targeted at - Children / Mature 21+ / Adult|
|Genres|An app can belong to multiple genres (apart from its main category). For eg, a musical family game will belong to|
|Last Updated|Date when the app was last updated on Play Store (as when scraped)|
|Current Ver|Current version of the app available on Play Store (as when scraped)|
|Android Ver|Min required Android version (as when scraped)|

**Tập dữ liệu `googleplaystore_user_reviews.csv`**
> This file contains the first 'most relevant' 100 reviews for each app. Each review text/comment has been pre-processed and attributed with 3 new features - Sentiment, Sentiment Polarity and Sentiment Subjectivity.

|tên cột|ý nghĩa|
|-|-|
|App|Application name|
|Translated_Review|User review (Preprocessed and translated to English)|
|Sentiment|Positive/Negative/Neutral (Preprocessed)|
|Sentiment_Polarity|Sentiment polarity score|
|Sentiment_Subjectivity|Sentiment subjectivity score|

## Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

In [16]:
apps.dtypes

App                object
Category           object
Rating            float64
Reviews            object
Size               object
Installs           object
Type               object
Price              object
Content Rating     object
Genres             object
Last Updated       object
Current Ver        object
Android Ver        object
dtype: object

In [17]:
reviews.dtypes

App                        object
Translated_Review          object
Sentiment                  object
Sentiment_Polarity        float64
Sentiment_Subjectivity    float64
dtype: object

Ta thấy cột `Size`, `Install`, `Price`, `Reviews` của tập dữ liệu `googleplaystore.csv` nên có kiểu dữ liệu số.

In [18]:
apps["Size"].unique()

array(['19M', '14M', '8.7M', '25M', '2.8M', '5.6M', '29M', '33M', '3.1M',
       '28M', '12M', '20M', '21M', '37M', '2.7M', '5.5M', '17M', '39M',
       '31M', '4.2M', '7.0M', '23M', '6.0M', '6.1M', '4.6M', '9.2M',
       '5.2M', '11M', '24M', 'Varies with device', '9.4M', '15M', '10M',
       '1.2M', '26M', '8.0M', '7.9M', '56M', '57M', '35M', '54M', '201k',
       '3.6M', '5.7M', '8.6M', '2.4M', '27M', '2.5M', '16M', '3.4M',
       '8.9M', '3.9M', '2.9M', '38M', '32M', '5.4M', '18M', '1.1M',
       '2.2M', '4.5M', '9.8M', '52M', '9.0M', '6.7M', '30M', '2.6M',
       '7.1M', '3.7M', '22M', '7.4M', '6.4M', '3.2M', '8.2M', '9.9M',
       '4.9M', '9.5M', '5.0M', '5.9M', '13M', '73M', '6.8M', '3.5M',
       '4.0M', '2.3M', '7.2M', '2.1M', '42M', '7.3M', '9.1M', '55M',
       '23k', '6.5M', '1.5M', '7.5M', '51M', '41M', '48M', '8.5M', '46M',
       '8.3M', '4.3M', '4.7M', '3.3M', '40M', '7.8M', '8.8M', '6.6M',
       '5.1M', '61M', '66M', '79k', '8.4M', '118k', '44M', '695k', '1.6M',
     

In [19]:
apps.Installs

0            10,000+
1           500,000+
2         5,000,000+
3        50,000,000+
4           100,000+
            ...     
10836         5,000+
10837           100+
10838         1,000+
10839         1,000+
10840    10,000,000+
Name: Installs, Length: 10358, dtype: object

In [20]:
apps.Price.unique()

array(['0', '$4.99', '$3.99', '$6.99', '$1.49', '$2.99', '$7.99', '$5.99',
       '$3.49', '$1.99', '$9.99', '$7.49', '$0.99', '$9.00', '$5.49',
       '$10.00', '$24.99', '$11.99', '$79.99', '$16.99', '$14.99',
       '$1.00', '$29.99', '$12.99', '$2.49', '$10.99', '$1.50', '$19.99',
       '$15.99', '$33.99', '$74.99', '$39.99', '$3.95', '$4.49', '$1.70',
       '$8.99', '$2.00', '$3.88', '$25.99', '$399.99', '$17.99',
       '$400.00', '$3.02', '$1.76', '$4.84', '$4.77', '$1.61', '$2.50',
       '$1.59', '$6.49', '$1.29', '$5.00', '$13.99', '$299.99', '$379.99',
       '$37.99', '$18.99', '$389.99', '$19.90', '$8.49', '$1.75',
       '$14.00', '$4.85', '$46.99', '$109.99', '$154.99', '$3.08',
       '$2.59', '$4.80', '$1.96', '$19.40', '$3.90', '$4.59', '$15.46',
       '$3.04', '$4.29', '$2.60', '$3.28', '$4.60', '$28.99', '$2.95',
       '$2.90', '$1.97', '$200.00', '$89.99', '$2.56', '$30.99', '$3.61',
       '$394.99', '$1.26', 'Everyone', '$1.20', '$1.04'], dtype=object)

In [21]:
apps.Reviews.sample(10)

3673        400
8251       2557
5913         87
9416        146
3306      33509
7485          0
7077     516917
10244       670
8728          3
1043          5
Name: Reviews, dtype: object

---

# Tiền xử lý

Chuyển cột `size` về dạng số.
* nếu là `K` thì chia cho 1000
* nếu là `M` thì giữ nguyên
* nếu là `Varies with device` thì gán là 0.

Tự định nghĩa hàm để chuyển đổi `dtype` cho cột `size`:

In [22]:
def conv2Num4Size(row):
    new_row = None
    if 'M' in row:
        new_row = float(row.replace('M', ''))
    elif 'K' in row:
        new_row = float(row.replace('K', '')/1000)
    else:
        return 0
    return new_row

In [23]:
apps["Size"] = apps["Size"].apply(conv2Num4Size)

Xem lại kiểu dữ liệu của cột `Size`

In [24]:
apps.Size.dtype

dtype('float64')

Chuyển cột `Installs` về dạng số
* xóa dấu `+` và dấu `,` sau đó chuyển về kiểu `int`

In [25]:
apps["Installs"] = apps["Installs"].apply(lambda x: int(x.replace('+','').replace(',',''))\
                                         if x != "Free" else 0)

Xem lại kiểu dữ liệu của cột `Installs`

In [26]:
apps.Installs.dtype

dtype('int64')

Chuyển cột `Price` về dạng số
* Xóa dấu `$` và chuyển về kiểu `float`
* Nếu bị thiếu thì điền vào là `0`.
* Nếu là `Everyone` thì điền vào là `0`.

Tự định nghĩa hàm để chuyển kiểu dữ liệu cho cột `Price`:

In [27]:
def conv2Num4Price(row):
    if row == "Everyone":
        return 0
    else:
        new_row = row.replace(",",'').replace('$','')
        return float(new_row)

In [28]:
apps["Price"] = apps["Price"].apply(conv2Num4Price)

Xem lại kiểu dữ liệu của cột `Price`:

In [29]:
apps["Price"].dtype

dtype('float64')

Cuối cùng là chuyển cột `Reviews` về dạng số:

In [30]:
apps["Reviews"] = apps["Reviews"].apply(lambda x: int(float(x.replace("M", ''))*1000) if 'M' in x else int(x))

Xem lại kiểu dữ liệu của cột `Reviews`

In [31]:
apps.Reviews.dtype

dtype('int64')

---

# Quay lại bước khám phá dữ liệu

## Với mỗi cột có kiểu dữ liệu dạng số (numerical), các giá trị được phân bố như thế nào?

In [32]:
apps.describe()

Unnamed: 0,Rating,Reviews,Size,Installs,Price
count,8893.0,10358.0,10358.0,10358.0,10358.0
mean,4.189542,405865.7,18.135847,14156390.0,1.030701
std,0.545452,2696651.0,22.149628,80235800.0,16.277843
min,1.0,0.0,0.0,0.0,0.0
25%,4.0,32.0,2.7,1000.0,0.0
50%,4.3,1683.0,9.1,100000.0,0.0
75%,4.5,46404.25,26.0,1000000.0,0.0
max,19.0,78158310.0,100.0,1000000000.0,400.0


ở cột `Rating` có 1 điểm dữ liệu bị sai là `19`, `Rating` cao nhất chỉ là `5` thôi!!!
$\to$ xóa dòng chứa giá trị này.

# Tiền xử lý

Xóa dòng chứa `Rating = 19`

In [45]:
apps.drop(apps[apps.Rating == 19].index, axis=0, inplace=True)

----

# Quay lại bước khám phá dữ liệu

## Với mỗi cột có kiểu dữ liệu không phải dạng số, các giá trị được phân bố như thế nào?

Ở cột `Genres` 1 App có thể có nhiều `Gernes` kết hợp lại và phân tách nhau bởi dấu `;` nên chúng ta cần phải chuyển nó về thành list các **Gerne**.

In [60]:
apps.Genres = apps.Genres.str.split(';')

In [61]:
apps.Genres.head()

0                  [Art & Design]
1    [Art & Design, Pretend Play]
2                  [Art & Design]
3                  [Art & Design]
4      [Art & Design, Creativity]
Name: Genres, dtype: object

**% của mỗi Gerne trong cột `Gernes`**

In [65]:
(apps.Genres.explode().value_counts() / apps.shape[0]) * 100

Tools                      8.139423
Education                  6.922854
Entertainment              6.063532
Business                   4.122815
Medical                    3.939365
Productivity               3.929709
Personalization            3.746259
Lifestyle                  3.611084
Action                     3.582118
Sports                     3.553152
Communication              3.543497
Finance                    3.475910
Photography                3.109008
Health & Fitness           2.973834
Social                     2.703486
News & Magazines           2.549001
Casual                     2.539345
Travel & Local             2.288307
Arcade                     2.259342
Books & Reference          2.249686
Shopping                   2.162788
Simulation                 2.085546
Dating                     1.892440
Video Players & Editors    1.718644
Puzzle                     1.564160
Maps & Navigation          1.322777
Action & Adventure         1.235879
Food & Drink               1

# Đặt câu hỏi 