# Анализ данных Google Play Store

В этом минипроекте вам предстоит проанализировать данные из Google Play Store. Проект разделен на логические этапы (степы) для удобства выполнения и проверки. Некоторые задания содержат подсказки для решения. Удачи в работе!

**Описание данных:**

*   **App** — название приложения
*   **Category** — категория, к которой относится приложение
*   **Rating** — рейтинг пользователей
*   **Reviews** — количество отзывов пользователей о приложении
*   **Size** — размер приложения
*   **Installs** — количество загрузок/установок приложения пользователями
*   **Type** — платное или бесплатное приложение
*   **Price** — цена приложения
*   **Content Rating** — возрастная группа, на которую ориентировано приложение
*   **Genres** — принадлежность приложения к нескольким жанрам
*   **Last Updated** — дата последнего обновления приложения в Play Store
*   **Current Ver** — текущая версия приложения в Play Store
*   **Android Ver** — минимальная требуемая версия Android

In [1]:
import pandas as pd

In [2]:
playstore = pd.DataFrame(pd.read_csv('playstore.csv'))

In [3]:
playstore.head()

Unnamed: 0.1,Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


**Задаине 1.** Сохраните в переменные `data_head` и `data_tail` первые и последние 3 строки из датафрейма соответственно.

In [4]:
data_head = playstore[:3] # первые 3 строки
data_tail = playstore[-3:] # последние 3 строки

In [5]:
data_head = playstore.head(3) # первые 3 строки
data_tail = playstore.tail(3) # последние 3 строки

**Задаине 2.** Сохраните в переменные `n_col` и `n_row` количество столбцов и строк в датафрейме соответственно. Датафрейм уже находится в переменной `playstore`.

In [6]:
n_col = playstore.shape[1] #количество столбцов
n_row = playstore.shape[0] #количество строк
print(f'количество столбцов - {n_col} \nколичество строк - {n_row} \n ')

количество столбцов - 14 
количество строк - 10840 
 


**Задаине 3.** Давайте теперь посмотрим, какое количество уникальных приложений есть в наших данных (колонка App).

In [7]:
playstore['App'].nunique()

9659

In [8]:
for name in playstore.columns[1:]:
    print(f'{name} - {playstore[name].nunique()}')

App - 9659
Category - 33
Rating - 39
Reviews - 6001
Size - 461
Installs - 21
Type - 2
Price - 92
Content Rating - 6
Genres - 119
Last Updated - 1377
Current Ver - 2831
Android Ver - 33


**Задаине 4.** Давайте посчитаем число пропущенных значений в колонке с рейтингом приложений. Сохраните в переменную `rating_missing` количество пропущенных значений в колонке `Rating`. 

In [9]:
rating_missing = len(playstore[playstore['Rating'].isna()])
# playstore[playstore['Rating'].isna()].sum()
# playstore[playstore['Rating'].isna()].shape()[0]

**Задаине 5.** Научимся объединять датафреймы и познакомимся с функцией `concat`.

Допустим, мы хотим собрать датафрейм, который будет включать в себя: первые три строки исходного датафрейма, строки 6-8 (включительно), строки 16-19 (включительно) и колонки: `App`, `Size`, `Genres`, `Current Ver` в соответствующем порядке.

По сути, это будет выглядеть как объединение трех, состоящих из нескольких строк, датафреймов, являющимися срезами из исходных данных.

В качестве ответа загрузите полученный датафрейм в формате `csv`. При сохранении финального датафрейма, колонка с индексами должна остаться.

NB! Помните про индексацию с нуля и правила включения/невключения границ при слайсинге

In [28]:
slise_1 = playstore.iloc[0:3][['App', 'Size', 'Genres', 'Current Ver']]
slise_2 = playstore.iloc[5:8][['App', 'Size', 'Genres', 'Current Ver']]
slise_3 = playstore.iloc[15:19][['App', 'Size', 'Genres', 'Current Ver']]
task_5 = pd.concat([slise_1, slise_2, slise_3])

In [29]:
task_5.to_csv('task_5.csv')

**Задаине 6.** Для дальнейшего анализа нам необходимо убрать дубликаты приложений (колонка App) и сбросить индекс. Сохраните полученный результат в виде датафрейма в переменную `unique_playstore`. Датафрейм уже находится в переменной `playstore`.

**Задаине 7.** В этом задании названия колонок необходимо привести к стандартному виду — все буквы должны быть нижнего регистра, а пробелы должны быть заменены на нижние подчеркивания. 

Методы, которые могут пригодиться: `rename`, `str.lower`, `str.replace`, `columns`

**Задаине 8.** Давайте посмотрим на долю платных и бесплатных приложений. В качестве ответа введите долю бесплатных приложений. Ответ округлите до сотых, в качестве десятичного разделителя используйте точку.

NB! Не забудьте убрать дубликаты приложений (колонка App) перед подсчетом доли!

**Задаине 9.** Отберите из датафрейма только те приложения, которые относятся к образовательной категории  (`EDUCATION`) и с количеством отзывов пользователей более 1000. Сохраните новый датафрейм в переменную `education_playstore`.

Данные очищены от дубликатов, названия колонок преобразованы согласно предыдущим заданиям и сохранены в датафрейме `playstore`.

NB! Не забудьте сбросить индекс в полученном датафрейме!

**Задаине 10.** Давайте уберем лишние символы из колонки с ценой (`price`), чтобы далее с ней было удобнее работать, и переведем данные в тип `float`. Данные уже сохранены в `playstore`.

**Задаине 11.** В качестве последнего задания вам предстоит сделать сводную таблицу по данным. Полученная на выходе таблица должна соответствовать представленному шаблону: 

| category | type | mean_price | mean_rating | mean_reviews |
|----------|------|------------|-------------|--------------|
| ART_AND_DESIGN | Free | Х.ХХ | Х.Х | Х.ХХ |
| | Paid | Х.ХХ | Х.Х | Х.ХХ |
| AUTO_AND_VEHICLES | Free | Х.ХХ | Х.Х | Х.ХХ |
| | Paid | Х.ХХ | Х.Х | Х.ХХ |
| ... | ... | ... | ... | ... |

Колонки должны иметь соответствующие названия, значения таблицы округлены до указанного числа знаков после точки. В качестве ответа загрузите полученную таблицу в формате `csv` (сепаратор запятая - ,).

NB! Понадобится погуглить информацию по запросу "Сводная таблица pandas"

NB! Таблицу нужно делать по данным, где удалены дубликаты