# Минипроект

В этом минипроекте вам предстоит проанализировать данные из Google Play Store. Чуть ниже вы можете ознакомиться с описанием данных. Мы разбили задачи на степы, чтобы было проще их проверить. В некоторых из задач также можно встретить небольшие подсказки. Успехов :)

**Описание данных**

- App — название приложения
- Category — категория, к которой относится приложение
- Rating — рейтинг пользователей
- Reviews — количество отзывов пользователей о приложении
- Size — размер приложения
- Installs — количество загрузок/установок приложения пользователями
- Type — платное или бесплатное приложение
- Price — цена приложения
- Content Rating — возрастная группа, на которую ориентировано приложение
- Genres — принадлежность приложения к нескольким жанрам
- Last Updated — дата последнего обновления приложения в Play Store
- Current Ver — текущая версия приложения в Play Store
- Android Ver — минимальная требуемая версия Android


### Задание 1

Сохраните в переменные data_head и data_tail первые и последние 3 строки из датафрейма соответственно

In [1]:
import pandas as pd

In [2]:
playstore = pd.read_csv('playstore.csv')

data_head = playstore.head(3)
data_tail = playstore.tail(3)

### Задание 2

Сохраните в переменные n_col и n_row количество столбцов и строк в датафрейме соответственно.

In [3]:
n_row, n_col = playstore.shape[0], playstore.shape[1]
print(f'Строк - {n_row}, столбцов - {n_col}')

Строк - 10840, столбцов - 14


### Задание 3

Давайте теперь посмотрим, какое количество уникальных приложений есть в наших данных (колонка App).

В качестве ответа введите полученное число.

In [4]:
playstore['App'].nunique()

9659

### Задание 4

Давайте посчитаем число пропущенных значений в колонке с рейтингом приложений. 

Сохраните в переменную rating_missing количество пропущенных значений в колонке Rating. 

In [5]:
rating_missing = playstore['Rating'].isnull().value_counts()[True]
rating_missing

1474

### Задание 5

Научимся объединять датафреймы и познакомимся с функцией concat.

Допустим, мы хотим собрать датафрейм, который будет включать в себя: первые три строки исходного датафрейма, строки 6-8 (включительно), строки 16-19 (включительно) и колонки: App, Size, Genres, Current Ver в соответствующем порядке.

*По сути, это будет выглядеть как объединение трех, состоящих из нескольких строк, датафреймов, являющимися срезами из исходных данных.*

*В качестве ответа загрузите полученный датафрейм в формате csv. При сохранении финального датафрейма, колонка с индексами должна остаться.*

*Помните про индексацию с нуля и правила включения/невключения границ при слайсинге*

In [6]:
df_1 = playstore[0:3][['App', 'Size', 'Genres', 'Current Ver']]
df_2 = playstore[5:8][['App', 'Size', 'Genres', 'Current Ver']]
df_3 = playstore[15:19][['App', 'Size', 'Genres', 'Current Ver']]

concat_df = pd.concat([df_1, df_2, df_3])
concat_df

Unnamed: 0,App,Size,Genres,Current Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,19M,Art & Design,1.0.0
1,Coloring book moana,14M,Art & Design;Pretend Play,2.0.0
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",8.7M,Art & Design,1.2.4
5,Paper flowers instructions,5.6M,Art & Design,1.0
6,Smoke Effect Photo Maker - Smoke Editor,19M,Art & Design,1.1
7,Infinite Painter,29M,Art & Design,6.1.61.1
15,Learn To Draw Kawaii Characters,2.7M,Art & Design,
16,Photo Designer - Write your name with shapes,5.5M,Art & Design,3.1
17,350 Diy Room Decor Ideas,17M,Art & Design,1.0
18,FlipaClip - Cartoon animation,39M,Art & Design,2.2.5


In [7]:
concat_df.to_csv('concat.csv', index=True)

### Задание 6

Для дальнейшего анализа нам необходимо убрать дубликаты приложений (колонка App) и сбросить индекс. 

Сохраните полученный результат в виде датафрейма в переменную unique_playstore

In [8]:
unique_playstore = playstore.drop_duplicates(subset=['App']).reset_index(drop=True)
unique_playstore.head(3)

Unnamed: 0.1,Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up


### Задание 7

В этом задании названия колонок необходимо привести к стандартному виду — все буквы должны быть нижнего регистра, а пробелы должны быть заменены на нижние подчеркивания. 

Методы, которые могут пригодиться:
- rename
- str.lower
- str.replace
- columns

In [9]:
playstore.rename(columns = lambda x: x.lower().replace(' ','_'), inplace=True)
playstore.head(3)

Unnamed: 0,unnamed:_0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up


### Задание 8

Давайте посмотрим на долю платных и бесплатных приложений. В качестве ответа введите долю бесплатных приложений. Ответ округлите до сотых, в качестве десятичного разделителя используйте точку.

*Не забудьте убрать дубликаты перед подсчетом доли!*

In [10]:
round(playstore.drop_duplicates(subset=['app'])['type']\
               .value_counts(normalize=True)['Free'], 2)


0.92

### Задание 9

Отберите из датафрейма только те приложения, которые относятся к образовательной категории  (EDUCATION) и с количеством отзывов пользователей более 1000.

Сохраните новый датафрейм в переменную education_playstore.

*Не забудьте сбросить индекс в полученном датафрейме!*

In [11]:
education_playstore = playstore[(playstore['category'] == 'EDUCATION') & (playstore['reviews'] > 1000)]\
                        .reset_index(drop=True)
education_playstore.head(3)

Unnamed: 0,unnamed:_0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver
0,699,Duolingo: Learn Languages Free,EDUCATION,4.7,6289924,Varies with device,"100,000,000+",Free,0,Everyone,Education;Education,"August 1, 2018",Varies with device,Varies with device
1,700,TED,EDUCATION,4.6,181893,18M,"10,000,000+",Free,0,Everyone 10+,Education,"July 27, 2018",3.2.5,4.1 and up
2,701,English Communication - Learn English for Chin...,EDUCATION,4.7,2544,18M,"100,000+",Free,0,Everyone,Education,"December 29, 2017",3.1,4.0 and up


### Задание 10

Давайте уберем лишние символы из колонки с ценой (price), чтобы далее с ней было удобнее работать, и переведем данные в тип float

In [12]:
playstore['price'] = playstore['price'].str.replace('$','').astype('float64')
playstore.head(3)

  playstore['price'] = playstore['price'].str.replace('$','').astype('float64')


Unnamed: 0,unnamed:_0,app,category,rating,reviews,size,installs,type,price,content_rating,genres,last_updated,current_ver,android_ver
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0.0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0.0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0.0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up


### Задание 11

В качестве последнего задания вам предстоит сделать сводную таблицу по данным. Полученная на выходе таблица должна соответствовать представленному шаблону: 

|||mean_price|mean_rating|mean_reviews|
|:--|:--|:-:|:-:|:-:|
|**category**|**type**||||			
|ART_AND_DESIGN|Free|Х.ХХ|Х.Х|Х.ХХ|
||Paid|Х.ХХ|Х.Х|Х.ХХ|
|AUTO_AND_VEHICLES|Free|Х.ХХ|Х.Х|Х.ХХ|
||Paid|Х.ХХ|Х.Х|Х.ХХ|
|...|...|...|...|...|

Колонки должны иметь соответствующие названия, значения таблицы округлены до указанного числа знаков после точки. В качестве ответа загрузите полученную таблицу в формате csv (сепаратор запятая - ",")

*Понадобится погуглить информацию по запросу "Сводная таблица pandas"*

*Таблицу нужно делать по данным, где удалены дубликаты*

In [13]:
playstore = playstore.drop_duplicates(subset=['app']).reset_index(drop=True)

pivot_table = pd.pivot_table(playstore, index=['category', 'type'],\
                             aggfunc={'price':'mean',\
                                      'rating':'mean',\
                                      'reviews':'mean'})

pivot_table.rename(columns={'price':'mean_price',\
                            'rating':'mean_rating',\
                            'reviews':'mean_reviews'},\
                            inplace=True)

pivot_table = pivot_table.round({'mean_price':2,\
                                 'mean_rating':1,\
                                 'mean_reviews':2})
                                 
pivot_table

Unnamed: 0_level_0,Unnamed: 1_level_0,mean_price,mean_rating,mean_reviews
category,type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ART_AND_DESIGN,Free,0.00,4.3,23230.11
ART_AND_DESIGN,Paid,1.99,4.7,722.00
AUTO_AND_VEHICLES,Free,0.00,4.2,14140.28
AUTO_AND_VEHICLES,Paid,4.49,4.6,1387.67
BEAUTY,Free,0.00,4.3,7476.23
...,...,...,...,...
TRAVEL_AND_LOCAL,Paid,4.16,4.1,1506.08
VIDEO_PLAYERS,Free,0.00,4.0,424347.18
VIDEO_PLAYERS,Paid,2.62,4.1,3341.75
WEATHER,Free,0.00,4.2,171249.62


In [14]:
pivot_table.to_csv('pivot_table.csv')