# Data Preparation. Практическая работа

## Цели практической работы
1. Потренироваться определять типы переменных в датасете, целевую переменную из постановки задачи, распределение переменных.
2. Познакомиться с задачей, предстоящей на этапе моделирования.
3. Начать исследовать данные для этапа моделирования.



## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета.
3. Определить типы переменных в датасете.
4. Определить целевую переменную в данных и распределение переменных.




## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.
- Репозиторий проекта содержит осмысленные коммиты, содержащие конкретные реализованные фичи, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них уроках.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.


## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему проверяющему преподавателю.


## Задача

Начиная с этого урока вы начнёте исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.
В этой практической работе вы загрузите датасет и начнёте его исследование.


## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


In [1]:
# Импортируйте необходимые библиотеки
import pandas as pd

### Задача 1. Загрузка датасета и ознакомление с ним
**Что нужно сделать**

Для начала требуется загрузить датасет и ознакомиться с его характеристиками.

1. Загрузите датасет из `data/vehicles_dataset.csv` и выведите его.


In [2]:
# Ваш код здесь
df = pd.read_csv('vehicles_dataset.csv', index_col = 'id')
df

Unnamed: 0_level_0,url,region,region_url,price,year,manufacturer,model,condition,cylinders,fuel,...,type,paint_color,image_url,description,county,state,lat,long,posting_date,price_category
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020.0,ram,2500 crew cab big horn,good,,diesel,...,pickup,silver,https://images.craigslist.org/00N0N_1xMPvfxRAI...,Carvana is the safer way to buy a car During t...,,tn,35.060000,-85.250000,2021-04-17T12:30:50-0400,high
7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016.0,ford,explorer 4wd 4dr xlt,,6 cylinders,,...,SUV,black,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium
7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017.0,volkswagen,golf r hatchback,good,,gas,...,sedan,,https://images.craigslist.org/00y0y_eeZjWeiSfb...,Carvana is the safer way to buy a car During t...,,ca,33.779214,-84.411811,2021-04-28T03:52:20-0700,high
7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013.0,toyota,rav4,,,gas,...,wagon,white,https://images.craigslist.org/00606_iGe5iXidib...,2013 Toyota RAV4 XLE 4dr SUV Offered by: R...,,nc,35.715954,-78.655304,2021-04-17T10:08:57-0400,medium
7316474668,https://newyork.craigslist.org/lgi/cto/d/baldw...,new york city,https://newyork.craigslist.org,21800,2021.0,nissan,altima,new,4 cylinders,gas,...,,,https://images.craigslist.org/00V0V_3pSOiPZ3Sd...,2021 Nissan Altima Sv with Only 8 K Miles Titl...,,ny,40.654800,-73.609700,2021-05-03T18:32:06-0400,medium
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7304876387,https://chautauqua.craigslist.org/ctd/d/falcon...,chautauqua,https://chautauqua.craigslist.org,4495,2002.0,toyota,rav4,good,4 cylinders,gas,...,SUV,white,https://images.craigslist.org/00n0n_aaEBqmzz5Z...,Transmission:Automatic Exterior Color:WHITE In...,,ny,42.123900,-79.189500,2021-04-10T16:33:57-0400,low
7316152972,https://binghamton.craigslist.org/ctd/d/roches...,binghamton,https://binghamton.craigslist.org,14495,2008.0,jeep,wrangler,good,6 cylinders,gas,...,SUV,grey,https://images.craigslist.org/00000_9ZNVdXaiei...,2008 Jeep Wrangler X Offered by: R&L Auto -- ...,,ny,43.216990,-77.755610,2021-05-03T09:36:30-0400,medium
7310993818,https://salem.craigslist.org/ctd/d/salem-2011-...,salem,https://salem.craigslist.org,8995,2011.0,audi,a3 2.0t premium plus pzev,,4 cylinders,gas,...,wagon,black,https://images.craigslist.org/00X0X_k5JiZDDyqM...,2011 Audi A3 2.0T Premium Plus PZEV Wagon2011 ...,,or,44.925908,-122.982753,2021-04-22T12:14:01-0700,low
7306637427,https://madison.craigslist.org/ctd/d/madison-2...,madison,https://madison.craigslist.org,31900,2015.0,porsche,cayenne,good,6 cylinders,hybrid,...,wagon,brown,https://images.craigslist.org/00O0O_gBihGEQxYT...,"2015 Porsche Cayenne AWD 4dr S E-Hybrid - $31,...",,wi,43.029559,-89.397796,2021-04-14T09:14:42-0500,high


2. Выведите размер датасета.


In [3]:
# Ваш код здесь
df.shape

(10050, 26)

3. Выведите список колонок датасета.

In [4]:
# Ваш код здесь
df.columns.tolist()

['url',
 'region',
 'region_url',
 'price',
 'year',
 'manufacturer',
 'model',
 'condition',
 'cylinders',
 'fuel',
 'odometer',
 'title_status',
 'transmission',
 'VIN',
 'drive',
 'size',
 'type',
 'paint_color',
 'image_url',
 'description',
 'county',
 'state',
 'lat',
 'long',
 'posting_date',
 'price_category']

4. Выведите описательные статистики для всего датасета (обязательно укажите верный параметр для этого).

In [5]:
df.describe(include='all')

Unnamed: 0,url,region,region_url,price,year,manufacturer,model,condition,cylinders,fuel,...,type,paint_color,image_url,description,county,state,lat,long,posting_date,price_category
count,10050,10050,10050,10050.0,10014.0,9665,9921,6268,5953,9987,...,7845,7087,10048,10048,0.0,10050,9951.0,9951.0,10048,10050
unique,10000,393,405,,,39,3466,6,8,5,...,13,12,9081,9845,,51,,,9957,3
top,https://roswell.craigslist.org/cto/d/artesia-1...,"kansas city, MO",https://kansascity.craigslist.org,,,ford,f-150,good,6 cylinders,gas,...,sedan,white,https://images.craigslist.org/00N0N_1xMPvfxRAI...,PLEASE VIEW THE FREE CARFAX HISTORY REPORT AT ...,,ca,,,2021-04-13T09:11:02-0500,high
freq,2,86,86,,,1647,151,3134,2288,8447,...,1981,1916,191,7,,1113,,,3,3514
mean,,,,20684.29,2010.917815,,,,,,...,,,,,,,38.590164,-94.161564,,
std,,,,124321.6,9.697849,,,,,,...,,,,,,,5.844756,18.123096,,
min,,,,500.0,1915.0,,,,,,...,,,,,,,-67.144243,-158.0693,,
25%,,,,7900.0,2008.0,,,,,,...,,,,,,,34.83,-110.44715,,
50%,,,,15749.5,2013.0,,,,,,...,,,,,,,39.2851,-87.9991,,
75%,,,,27990.0,2017.0,,,,,,...,,,,,,,42.42759,-80.83,,


### Задача 2. Исследование переменных датасета
**Что нужно сделать**

После ознакомления с датасетом посмотрите, какие значения принимают переменные с характеристиками.

Распечатайте в цикле по каждой колонке название колонки, количество уникальных значений, а затем список возможных значений вместе с их количеством появления в датасете.

При выводе информации по каждой характеристике придерживайтесь шаблона.

```
Характеристика: id
Количество уникальных значений: 10000
Список значений:
7303629857    2
7315995136    2
7316719393    2
7309842734    2
7307971804    2
             ..
7303843163    1
7315223900    1
7309940769    1
7309251820    1
7316428067    1
Name: id, Length: 10000, dtype: int64
```

In [6]:
for i in df:
    print(f'Характеристика: {i}')
    print(f'Количество уникальных значений: {df[i].nunique()}')
    print(f'Список значений: \n{df.groupby(df[i].tolist(), as_index=True ).size().sort_values(ascending=False)}\n\n')

Характеристика: url
Количество уникальных значений: 10000
Список значений: 
https://oklahomacity.craigslist.org/ctd/d/norman-2018-chevrolet-traverse-premier/7314807085.html    2
https://springfield.craigslist.org/ctd/d/clinton-sleek-silver-ram-longhorn-4x4/7311421903.html      2
https://cleveland.craigslist.org/cto/d/cleveland-2009-bmw-328-coupe-xi/7316170283.html              2
https://jonesboro.craigslist.org/ctd/d/jonesboro-2016-scion-im-hatchback-4d/7306120259.html         2
https://westernmass.craigslist.org/ctd/d/springfield-2017-gmc-acadia-sle-sport/7307083381.html      2
                                                                                                   ..
https://grandisland.craigslist.org/ctd/d/columbus-2018-ford-explorer-xlt-4wd/7306685682.html        1
https://grandisland.craigslist.org/ctd/d/columbus-2018-jeep-grand-cherokee/7310858540.html          1
https://grandisland.craigslist.org/ctd/d/denton-2011-ford-f150-supercrew-cab-4wd/7305095946.html    1
https:

### Задача 3. Определение типов переменных в датасете
**Что нужно сделать**

После ознакомления с характеристиками заполните в таблице, к какому типу относятся некоторые переменные. Для этого на пересечении названия переменной и типа переменной проставьте «X».


|  Переменная    | Дискретная | Непрерывная | Качественная |
|----------------|------------|-------------|--------------|
| id             |           X|             |              |
| region         |            |             |X             |
| year           |            |           X |              |
| manufacturer   |            |             |X             |
| condition      |            |             |X             |
| fuel           |            |             | X            |
| odometer       |            |            X|              |
| title_status   |            |             |         X    |
| transmission   |            |             |X             |
| VIN            |            |             |       X      |
| drive          |            |             |          X   |
| paint_color    |            |             |      X       |
| state          |            |             |         X    |
| price_category |            |             |          X   |


### Задача 4. Определение целевой переменной в данных и распределения переменных
**Что нужно сделать**

1. Исходя из поставленной задачи определите, в какой колонке находится целевая переменная.



**Ответ:** price_category

2. Выведите для каждого значения целевой переменной его долю вхождения в выборку.


In [34]:
print(round(df.price_category.value_counts()/len(df)*100, 2))

high      34.97
medium    32.78
low       32.26
Name: price_category, dtype: float64


3. Ещё раз посмотрите на долю или количество вхождений каждого значения целевой переменной в выборку и напишите, какое это распределение. Определить, как распределены значения целевой переменной, в данном случае можно и без графика. 

**Ответ:** Биномиальное распределение