# Data Preparation. Практическая работа

## Цели практической работы
1. Потренироваться определять типы переменных в датасете, целевую переменную из постановки задачи, распределение переменных.
2. Познакомиться с задачей, предстоящей на этапе моделирования.
3. Начать исследовать данные для этапа моделирования.



## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета.
3. Определить типы переменных в датасете.
4. Определить целевую переменную в данных и распределение переменных.




## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.
- Репозиторий проекта содержит осмысленные коммиты, содержащие конкретные реализованные фичи, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них уроках.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.


## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему проверяющему преподавателю.


## Задача

Начиная с этого урока вы начнёте исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.
В этой практической работе вы загрузите датасет и начнёте его исследование.


## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


In [1]:
import pandas as pd
# Импортируйте необходимые библиотеки

### Задача 1. Загрузка датасета и ознакомление с ним
**Что нужно сделать**

Для начала требуется загрузить датасет и ознакомиться с его характеристиками.

1. Загрузите датасет из `data/vehicles_dataset.csv` и выведите его.


In [11]:
# Ваш код здесь
vd = pd.read_csv('vehicles_dataset.csv', sep=',')

2. Выведите размер датасета.


In [89]:
# Ваш код здес
vd.shape

27

3. Выведите список колонок датасета.

In [15]:
# Ваш код здесь
vd.columns

Index(['id', 'url', 'region', 'region_url', 'price', 'year', 'manufacturer',
       'model', 'condition', 'cylinders', 'fuel', 'odometer', 'title_status',
       'transmission', 'VIN', 'drive', 'size', 'type', 'paint_color',
       'image_url', 'description', 'county', 'state', 'lat', 'long',
       'posting_date', 'price_category'],
      dtype='object')

4. Выведите описательные статистики для всего датасета (обязательно укажите верный параметр для этого).

In [49]:
# Ваш код здесь
vd.describe(include=[object])

Unnamed: 0,url,region,region_url,manufacturer,model,condition,cylinders,fuel,title_status,transmission,VIN,drive,size,type,paint_color,image_url,description,state,posting_date,price_category
count,10050,10050,10050,9665,9921,6268,5953,9987,9884,10005,6086,7026,2825,7845,7087,10048,10048,10050,10048,10050
unique,10000,393,405,39,3466,6,8,5,6,3,5429,3,4,13,12,9081,9845,51,9957,3
top,https://roswell.craigslist.org/cto/d/artesia-1...,"kansas city, MO",https://kansascity.craigslist.org,ford,f-150,good,6 cylinders,gas,clean,automatic,1FMJU1JT1HEA52352,4wd,full-size,sedan,white,https://images.craigslist.org/00N0N_1xMPvfxRAI...,PLEASE VIEW THE FREE CARFAX HISTORY REPORT AT ...,ca,2021-04-13T09:11:02-0500,high
freq,2,86,86,1647,151,3134,2288,8447,9568,7737,10,3054,1476,1981,1916,191,7,1113,3,3514


### Задача 2. Исследование переменных датасета
**Что нужно сделать**

После ознакомления с датасетом посмотрите, какие значения принимают переменные с характеристиками.

Распечатайте в цикле по каждой колонке название колонки, количество уникальных значений, а затем список возможных значений вместе с их количеством появления в датасете.

При выводе информации по каждой характеристике придерживайтесь шаблона.

```
Характеристика: id
Количество уникальных значений: 10000
Список значений:
7303629857    2
7315995136    2
7316719393    2
7309842734    2
7307971804    2
             ..
7303843163    1
7315223900    1
7309940769    1
7309251820    1
7316428067    1
Name: id, Length: 10000, dtype: int64
```

In [147]:
# Ваш код здесь
for label, content in vd.items():
    print(f'Характеристика {label}:')
    print(f'''Список значений:'
    {content}''')

Характеристика id:
Список значений:'
    0        7308295377
1        7316380095
2        7313733749
3        7308210929
4        7316474668
            ...    
10045    7304876387
10046    7316152972
10047    7310993818
10048    7306637427
10049    7311960763
Name: id, Length: 10050, dtype: int64
Характеристика url:
Список значений:'
    0        https://chattanooga.craigslist.org/ctd/d/chatt...
1        https://newjersey.craigslist.org/ctd/d/carlsta...
2        https://reno.craigslist.org/ctd/d/atlanta-2017...
3        https://fayetteville.craigslist.org/ctd/d/rale...
4        https://newyork.craigslist.org/lgi/cto/d/baldw...
                               ...                        
10045    https://chautauqua.craigslist.org/ctd/d/falcon...
10046    https://binghamton.craigslist.org/ctd/d/roches...
10047    https://salem.craigslist.org/ctd/d/salem-2011-...
10048    https://madison.craigslist.org/ctd/d/madison-2...
10049    https://norfolk.craigslist.org/ctd/d/chesapeak...
Name: url,

### Задача 3. Определение типов переменных в датасете
**Что нужно сделать**

После ознакомления с характеристиками заполните в таблице, к какому типу относятся некоторые переменные. Для этого на пересечении названия переменной и типа переменной проставьте «X».


|  Переменная    | Дискретная | Непрерывная | Качественная |
|----------------|------------|-------------|--------------|
| id             | X          |             |              |
| region         |            |             |              |
| year           |            |             |              |
| manufacturer   |            |             |              |
| condition      |            |             |              |
| fuel           |            |             |              |
| odometer       |            |             |              |
| title_status   |            |             |              |
| transmission   |            |             |              |
| VIN            |            |             |              |
| drive          |            |             |              |
| paint_color    |            |             |              |
| state          |            |             |              |
| price_category |            |             |              |


### Задача 4. Определение целевой переменной в данных и распределения переменных
**Что нужно сделать**

1. Исходя из поставленной задачи определите, в какой колонке находится целевая переменная.



**Ответ:** _ваш ответ_

2. Выведите для каждого значения целевой переменной его долю вхождения в выборку.


In [None]:
# Ваш код здесь

3. Ещё раз посмотрите на долю или количество вхождений каждого значения целевой переменной в выборку и напишите, какое это распределение. Определить, как распределены значения целевой переменной, в данном случае можно и без графика. 

**Ответ:** _ваш ответ_