# Анализ данных Google Play Store

В этом минипроекте вам предстоит проанализировать данные из Google Play Store. Проект разделен на логические этапы (степы) для удобства выполнения и проверки. Некоторые задания содержат подсказки для решения. Удачи в работе!

**Описание данных:**

*   **App** — название приложения
*   **Category** — категория, к которой относится приложение
*   **Rating** — рейтинг пользователей
*   **Reviews** — количество отзывов пользователей о приложении
*   **Size** — размер приложения
*   **Installs** — количество загрузок/установок приложения пользователями
*   **Type** — платное или бесплатное приложение
*   **Price** — цена приложения
*   **Content Rating** — возрастная группа, на которую ориентировано приложение
*   **Genres** — принадлежность приложения к нескольким жанрам
*   **Last Updated** — дата последнего обновления приложения в Play Store
*   **Current Ver** — текущая версия приложения в Play Store
*   **Android Ver** — минимальная требуемая версия Android

In [1]:
import pandas as pd

In [3]:
playstore = pd.DataFrame(pd.read_csv('playstore.csv'))

**Задаине 1.** Сохраните в переменные `data_head` и `data_tail` первые и последние 3 строки из датафрейма соответственно.

In [13]:
data_head = playstore[:3] # первые 3 строки
data_tail = playstore[-3:] # последние 3 строки

In [14]:
data_head = playstore.head(3) # первые 3 строки
data_tail = playstore.tail(3) # последние 3 строки

**Задаине 2.** Сохраните в переменные `n_col` и `n_row` количество столбцов и строк в датафрейме соответственно. Датафрейм уже находится в переменной `playstore`.

**Задаине 3.** Давайте теперь посмотрим, какое количество уникальных приложений есть в наших данных (колонка App).

**Задаине 4.** Давайте посчитаем число пропущенных значений в колонке с рейтингом приложений. Сохраните в переменную `rating_missing` количество пропущенных значений в колонке `Rating`. 

**Задаине 5.** Научимся объединять датафреймы и познакомимся с функцией `concat`.

Допустим, мы хотим собрать датафрейм, который будет включать в себя: первые три строки исходного датафрейма, строки 6-8 (включительно), строки 16-19 (включительно) и колонки: `App`, `Size`, `Genres`, `Current Ver` в соответствующем порядке.

По сути, это будет выглядеть как объединение трех, состоящих из нескольких строк, датафреймов, являющимися срезами из исходных данных.

В качестве ответа загрузите полученный датафрейм в формате `csv`. При сохранении финального датафрейма, колонка с индексами должна остаться.

NB! Помните про индексацию с нуля и правила включения/невключения границ при слайсинге

**Задаине 6.** Для дальнейшего анализа нам необходимо убрать дубликаты приложений (колонка App) и сбросить индекс. Сохраните полученный результат в виде датафрейма в переменную `unique_playstore`. Датафрейм уже находится в переменной `playstore`.

**Задаине 7.** В этом задании названия колонок необходимо привести к стандартному виду — все буквы должны быть нижнего регистра, а пробелы должны быть заменены на нижние подчеркивания. 

Методы, которые могут пригодиться: `rename`, `str.lower`, `str.replace`, `columns`

**Задаине 8.** Давайте посмотрим на долю платных и бесплатных приложений. В качестве ответа введите долю бесплатных приложений. Ответ округлите до сотых, в качестве десятичного разделителя используйте точку.

NB! Не забудьте убрать дубликаты приложений (колонка App) перед подсчетом доли!

**Задаине 9.** Отберите из датафрейма только те приложения, которые относятся к образовательной категории  (`EDUCATION`) и с количеством отзывов пользователей более 1000. Сохраните новый датафрейм в переменную `education_playstore`.

Данные очищены от дубликатов, названия колонок преобразованы согласно предыдущим заданиям и сохранены в датафрейме `playstore`.

NB! Не забудьте сбросить индекс в полученном датафрейме!

**Задаине 10.** Давайте уберем лишние символы из колонки с ценой (`price`), чтобы далее с ней было удобнее работать, и переведем данные в тип `float`. Данные уже сохранены в `playstore`.

**Задаине 11.** В качестве последнего задания вам предстоит сделать сводную таблицу по данным. Полученная на выходе таблица должна соответствовать представленному шаблону: 

| category | type | mean_price | mean_rating | mean_reviews |
|----------|------|------------|-------------|--------------|
| ART_AND_DESIGN | Free | Х.ХХ | Х.Х | Х.ХХ |
| | Paid | Х.ХХ | Х.Х | Х.ХХ |
| AUTO_AND_VEHICLES | Free | Х.ХХ | Х.Х | Х.ХХ |
| | Paid | Х.ХХ | Х.Х | Х.ХХ |
| ... | ... | ... | ... | ... |

Колонки должны иметь соответствующие названия, значения таблицы округлены до указанного числа знаков после точки. В качестве ответа загрузите полученную таблицу в формате `csv` (сепаратор запятая - ,).

NB! Понадобится погуглить информацию по запросу "Сводная таблица pandas"

NB! Таблицу нужно делать по данным, где удалены дубликаты