# Разведочный анализ данных: Data Cleaning. Практическая работа

## Цели практической работы
* Потренироваться выявлять и заполнять пропущенные значения в данных.
* Потренироваться преобразовывать типы данных.
* Потренироваться выявлять и обрабатывать аномальные значения в данных.
* Подготовить датафрейм к этапу генерации признаков.



## Задача

В этой практической работе вы продолжите исследовать и готовить данные для этапа моделирования: заполнять пропущенные значения в некоторых переменных, изменять типы данных и обрабатывать выбросы.

Напомним, что вы работаете с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.

## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета на наличие пропусков.
3. Обработать пропуски в зависимости от типа переменной.
4. Изменить типы данных.
5. Исследовать данные на аномальные значения и скорректировать выбросы.

## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.
- Репозиторий проекта содержит осмысленные коммиты с конкретными реализованными фичами, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них видеоматериалов.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.




## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему куратору.

## Обязательные задачи

In [None]:
# Импортируйте необходимые библиотеки

### Задача 1. Загрузка датасета и ознакомление с количеством пропущенных значений

1. Загрузите датасет из `data/df_out.csv` и выведите первые пять записей.



In [None]:
# Ваш код здесь

2. Выведите информацию о датафрейме и обратите внимание на оставшиеся незаполненные значения.


In [None]:
# Ваш код здесь

3. Выведите количество полностью заполненных объектов и их процент из всей выборки. Воспользуйтесь материалами из видео.


In [None]:
# Ваш код здесь

4. Сохраните в переменную и выведите процент пропущенных значений для каждого признака, отсортируйте признаки по убыванию процента пропущенных значений. Воспользуйтесь материалами из видео и не забудьте передать верный параметр сортировки.


In [None]:
# Ваш код здесь

5. Выведите список всех признаков, в которых имеются пропущенные значения. Воспользуйтесь результатом вывода предыдущего задания, чтобы отсортировать признаки, подходящие под условие.

In [None]:
# Ваш код здесь

### Задача 2. Обработка пропусков в годе выпуска автомобиля

1. Выведите количество значений для года выпуска автомобиля, включая пропущенные значения.


In [None]:
# Ваш код здесь

2. Выведите количество пропущенных значений в годе выпуска автомобиля.



In [None]:
# Ваш код здесь

3. Выведите описательные статистики для года выпуска автомобиля.


In [None]:
# Ваш код здесь

4. Выведите записи, в которых год выпуска автомобиля не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [None]:
# Ваш код здесь

5. Обработайте пропуски, удалив записи, в которых год выпуска автомобиля не заполнен, и сохраните обновлённый датафрейм, а затем выведите его размерность.


In [None]:
# Ваш код здесь

6. Выведите количество пропущенных значений в годе выпуска автомобиля для обновлённого датафрейма.

In [None]:
print("Количество пропущенных значений в year:", ...)  # Допишите код

### Задача 3. Обработка пропусков в типе топлива

1. Выведите количество значений для типа топлива, включая пропущенные значения. Обратите внимание на количество пропущенных значений.




In [None]:
# Ваш код здесь

2. Выведите описательные статистики для типа топлива.


In [None]:
# Ваш код здесь

3. Выведите записи, в которых тип топлива не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [None]:
# Ваш код здесь

4. Обработайте пропуски, заполнив незаполненные значения типа топлива значением `other`, и сохраните изменения. Обратите внимание, что мы заполняем пропуски не самым популярным значением в выборке.


In [None]:
# Ваш код здесь

5. Выведите для обновлённого датафрейма количество пропущенных значений для типа топлива.

In [None]:
print("Количество пропущенных значений в fuel:", ...)  # Допишите код

Количество пропущенных значений в fuel: 0


### Задача 4. Обработка пропусков в модели автомобиля

1. Выведите количество значений для модели автомобиля, включая пропущенные значения. Обратите внимание на количество пропущенных значений.



In [None]:
# Ваш код здесь

2. Выведите описательные статистики для модели автомобиля.


In [None]:
# Ваш код здесь

3. Выведите записи, в которых модель автомобиля не заполнена. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [None]:
# Ваш код здесь

4. Если подробнее изучить значения описания автомобиля, то, возможно, модель автомобиля получится восстановить из описания. Сейчас обработайте пропуски, заполнив незаполненные значения модели автомобиля значением `other`, и сохраните изменения. Обратите внимание, что мы в очередной раз заполняем пропуски не самым популярным значением в выборке.


In [None]:
# Ваш код здесь

5. Выведите для обновлённого датафрейма количество пропущенных значений для модели автомобиля.

In [None]:
print("Количество пропущенных значений в model:", ...)  # Допишите код

### Задача 5. Обработка пропусков в статусе автомобиля

1. Выведите количество значений для статуса автомобиля, включая пропущенные значения. Обратите внимание на количество пропущенных значений.


In [None]:
# Ваш код здесь

2. Выведите описательные статистики для модели автомобиля.



In [None]:
# Ваш код здесь

3. Выведите записи, в которых статус автомобиля не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [None]:
# Ваш код здесь

4. Обработайте пропуски, заполнив незаполненные значения статуса автомобиля самым популярным значением, и сохраните изменения. Самое популярное значение передайте не в виде строки, а получите моду.


In [None]:
# Ваш код здесь

5. Выведите для обновлённого датафрейма количество пропущенных значений для статуса автомобиля.


In [None]:
print("Количество пропущенных значений в title_status:", ...)  # Допишите код

6. Ещё раз выведите количество полностью заполненных объектов и их процент из всей выборки. После обработки всех пропусков можно переходить к следующему этапу.

In [None]:
# Ваш код здесь

### Задача 6. Преобразование типа данных в годе выпуска автомобиля
1.  Выведите информацию о датафрейме и обратите внимание на типы данных.


In [None]:
# Ваш код здесь

2. Выведите описательные статистики для года выпуска автомобиля. Обратите внимание на тип данных.



In [None]:
# Ваш код здесь

3. Измените тип данных для года выпуска на более подходящий целочисленный тип и выведите получившийся тип данных только для года выпуска.

In [None]:
# Ваш код здесь

### Задача 7. Преобразование типа данных в категориальных переменных

1. Выведите тип данных для типа топлива автомобиля.


In [None]:
# Ваш код здесь

2. Категориальным переменным можно задавать специальный тип данных `category`. Подробнее об этом можно прочитать в [документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html). Укажите для типа топлива тип данных `category`, сохраните изменения в переменную `series` и выведите её.


In [None]:
# Ваш код здесь

3. Выведите тип данных для серии. Обратите внимание на структуру вывода.

In [None]:
# Ваш код здесь

4. Выведите первые две категории, используя вывод типа данных выше.

In [None]:
# Ваш код здесь

### Задача 8. Выбросы в годе выпуска

1. Выведите описательные статистики для года выпуска автомобиля. Обратите внимание на пограничные значения, на квартили.



In [None]:
# Ваш код здесь

2. Выведите границы для нормальных значений года выпуска, используя интерквартильный размах. Воспользуйтесь материалами из видео. Посмотрите, входят ли минимальное и максимальное значения в интервал между полученными границами.


In [None]:
# Ваш код здесь

3. Посчитайте и выведите количество выбросов в годе выпуска автомобиля.


In [None]:
# Ваш код здесь

4. Посчитайте и выведите долю выбросов в годе выпуска автомобиля.


In [None]:
# Ваш код здесь

5. Выведите записи, в которых год выпуска попадает в выбросы. Посмотрите на данные и подумайте, могут ли эти выбросы описывать особые значения категории цены или других признаков или действительно являются выбросами.


In [None]:
# Ваш код здесь

6. Выведите количество значений для категории цены для записей, в которых год выпуска автомобиля является выбросом. Описывают ли аномальные значения года выпуска какое-либо из значений цены автомобиля лучше, чем остальные?


In [None]:
# Ваш код здесь

7. Так как выбросы в годе выпуска находятся среди минимальных значений, заполните те значения, которые являются выбросами, значением нижней границы. Не забудьте учесть, что год должен быть целочисленным значением, входящим в границы нормальных значений.


In [None]:
# Ваш код здесь

8. Выведите ещё раз описательные статистики для года выпуска автомобиля, чтобы проверить, что теперь все значения года входят в границы нормальных значений.

In [None]:
# Ваш код здесь

## Дополнительные задачи

### Задача 9. Загрузка датафрейма с параметрами преобразования

Некоторые преобразования признаков можно сделать ещё в момент загрузки датафрейма из файла.

1. Прочитайте в новый датафрейм файл `data/vehicles_dataset.csv`, выбрав только нужные колонки и применив приведение типов данных. Обратитесь к [документации](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), чтобы узнать, за что отвечают параметры `usecols`,  `parse_dates` и `dtype`.


Датафрейм должен содержать:
- колонки `price`, `year`, `posting_date`;
- `posting_date` в datatime-формате;
- `price` в вещественном формате;
- `year` в целочисленном формате.

Возможно, вы столкнётесь с ошибкой при считывании года в виде целого числа. Подробнее о том, как бороться с этой ошибкой, можно узнать в документации по `обнуляемому целочисленному типу данных`:
- https://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html

*Подсказка:* Pandas может представлять целочисленные данные с возможными отсутствующими значениями, используя [arrays.IntegerArray](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.arrays.IntegerArray.html#pandas.arrays.IntegerArray) или его псевдонимы, которые вы сможете найти в документации.

In [None]:
# Ваш код здесь

2. Выведите информацию о датафрейме, чтобы убедиться, что признаки при загрузке преобразовались верно.


In [None]:
# Ваш код здесь

3. Для первой записи в датафрейме извлеките из `posting_date` и выведите номер месяца.


In [None]:
# Ваш код здесь