# Data Preparation. Практическая работа

## Цели практической работы
1. Потренироваться определять типы переменных в датасете, целевую переменную из постановки задачи, распределение переменных.
2. Познакомиться с задачей, предстоящей на этапе моделирования.
3. Начать исследовать данные для этапа моделирования.



## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета.
3. Определить типы переменных в датасете.
4. Определить целевую переменную в данных и распределение переменных.




## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.
- Репозиторий проекта содержит осмысленные коммиты, содержащие конкретные реализованные фичи, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них уроках.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.


## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему проверяющему преподавателю.


## Задача

Начиная с этого урока вы начнёте исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.
В этой практической работе вы загрузите датасет и начнёте его исследование.


## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


In [2]:
import pandas as pd
import requests as rq

### Задача 1. Загрузка датасета и ознакомление с ним
**Что нужно сделать**

Для начала требуется загрузить датасет и ознакомиться с его характеристиками.

1. Загрузите датасет из `data/vehicles_dataset.csv` и выведите его.


In [20]:
data = pd.read_csv('./vehicles_dataset.csv')
df = pd.DataFrame(data)
df

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,condition,cylinders,...,type,paint_color,image_url,description,county,state,lat,long,posting_date,price_category
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020.0,ram,2500 crew cab big horn,good,,...,pickup,silver,https://images.craigslist.org/00N0N_1xMPvfxRAI...,Carvana is the safer way to buy a car During t...,,tn,35.060000,-85.250000,2021-04-17T12:30:50-0400,high
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016.0,ford,explorer 4wd 4dr xlt,,6 cylinders,...,SUV,black,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017.0,volkswagen,golf r hatchback,good,,...,sedan,,https://images.craigslist.org/00y0y_eeZjWeiSfb...,Carvana is the safer way to buy a car During t...,,ca,33.779214,-84.411811,2021-04-28T03:52:20-0700,high
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013.0,toyota,rav4,,,...,wagon,white,https://images.craigslist.org/00606_iGe5iXidib...,2013 Toyota RAV4 XLE 4dr SUV Offered by: R...,,nc,35.715954,-78.655304,2021-04-17T10:08:57-0400,medium
4,7316474668,https://newyork.craigslist.org/lgi/cto/d/baldw...,new york city,https://newyork.craigslist.org,21800,2021.0,nissan,altima,new,4 cylinders,...,,,https://images.craigslist.org/00V0V_3pSOiPZ3Sd...,2021 Nissan Altima Sv with Only 8 K Miles Titl...,,ny,40.654800,-73.609700,2021-05-03T18:32:06-0400,medium
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10045,7304876387,https://chautauqua.craigslist.org/ctd/d/falcon...,chautauqua,https://chautauqua.craigslist.org,4495,2002.0,toyota,rav4,good,4 cylinders,...,SUV,white,https://images.craigslist.org/00n0n_aaEBqmzz5Z...,Transmission:Automatic Exterior Color:WHITE In...,,ny,42.123900,-79.189500,2021-04-10T16:33:57-0400,low
10046,7316152972,https://binghamton.craigslist.org/ctd/d/roches...,binghamton,https://binghamton.craigslist.org,14495,2008.0,jeep,wrangler,good,6 cylinders,...,SUV,grey,https://images.craigslist.org/00000_9ZNVdXaiei...,2008 Jeep Wrangler X Offered by: R&L Auto -- ...,,ny,43.216990,-77.755610,2021-05-03T09:36:30-0400,medium
10047,7310993818,https://salem.craigslist.org/ctd/d/salem-2011-...,salem,https://salem.craigslist.org,8995,2011.0,audi,a3 2.0t premium plus pzev,,4 cylinders,...,wagon,black,https://images.craigslist.org/00X0X_k5JiZDDyqM...,2011 Audi A3 2.0T Premium Plus PZEV Wagon2011 ...,,or,44.925908,-122.982753,2021-04-22T12:14:01-0700,low
10048,7306637427,https://madison.craigslist.org/ctd/d/madison-2...,madison,https://madison.craigslist.org,31900,2015.0,porsche,cayenne,good,6 cylinders,...,wagon,brown,https://images.craigslist.org/00O0O_gBihGEQxYT...,"2015 Porsche Cayenne AWD 4dr S E-Hybrid - $31,...",,wi,43.029559,-89.397796,2021-04-14T09:14:42-0500,high


2. Выведите размер датасета.


In [24]:
df.shape

(10050, 27)

3. Выведите список колонок датасета.

In [25]:
df.columns

Index(['id', 'url', 'region', 'region_url', 'price', 'year', 'manufacturer',
       'model', 'condition', 'cylinders', 'fuel', 'odometer', 'title_status',
       'transmission', 'VIN', 'drive', 'size', 'type', 'paint_color',
       'image_url', 'description', 'county', 'state', 'lat', 'long',
       'posting_date', 'price_category'],
      dtype='object')

4. Выведите описательные статистики для всего датасета (обязательно укажите верный параметр для этого).

In [27]:
st = df.describe()
print(st)

                 id         price          year      odometer  county  \
count  1.005000e+04  1.005000e+04  10014.000000  1.000700e+04     0.0   
mean   7.311544e+09  2.068429e+04   2010.917815  9.565719e+04     NaN   
std    4.475414e+06  1.243216e+05      9.697849  8.657948e+04     NaN   
min    7.208550e+09  5.000000e+02   1915.000000  0.000000e+00     NaN   
25%    7.308193e+09  7.900000e+03   2008.000000  3.899450e+04     NaN   
50%    7.312756e+09  1.574950e+04   2013.000000  8.837700e+04     NaN   
75%    7.315275e+09  2.799000e+04   2017.000000  1.370000e+05     NaN   
max    7.317090e+09  1.234568e+07   2022.000000  3.245000e+06     NaN   

               lat         long  
count  9951.000000  9951.000000  
mean     38.590164   -94.161564  
std       5.844756    18.123096  
min     -67.144243  -158.069300  
25%      34.830000  -110.447150  
50%      39.285100   -87.999100  
75%      42.427590   -80.830000  
max      64.947500   173.885502  


In [72]:
df.describe()

Unnamed: 0,id,price,year,odometer,county,lat,long
count,10050.0,10050.0,10014.0,10007.0,0.0,9951.0,9951.0
mean,7311544000.0,20684.29,2010.917815,95657.19,,38.590164,-94.161564
std,4475414.0,124321.6,9.697849,86579.48,,5.844756,18.123096
min,7208550000.0,500.0,1915.0,0.0,,-67.144243,-158.0693
25%,7308193000.0,7900.0,2008.0,38994.5,,34.83,-110.44715
50%,7312756000.0,15749.5,2013.0,88377.0,,39.2851,-87.9991
75%,7315275000.0,27990.0,2017.0,137000.0,,42.42759,-80.83
max,7317090000.0,12345680.0,2022.0,3245000.0,,64.9475,173.885502


### Задача 2. Исследование переменных датасета
**Что нужно сделать**

После ознакомления с датасетом посмотрите, какие значения принимают переменные с характеристиками.

Распечатайте в цикле по каждой колонке название колонки, количество уникальных значений, а затем список возможных значений вместе с их количеством появления в датасете.

При выводе информации по каждой характеристике придерживайтесь шаблона.

```
Характеристика: id
Количество уникальных значений: 10000
Список значений:
7303629857    2
7315995136    2
7316719393    2
7309842734    2
7307971804    2
             ..
7303843163    1
7315223900    1
7309940769    1
7309251820    1
7316428067    1
Name: id, Length: 10000, dtype: int64
```

In [63]:
for column_name in df.columns:
    print(column_name)
    print('количество уникальных значений', df[column_name].nunique())
    print('список значений:')
    print(df[column_name].unique())

    


id
количество уникальных значений 10000
список значений:
[7308295377 7316380095 7313733749 ... 7310993818 7306637427 7311960763]
url
количество уникальных значений 10000
список значений:
['https://chattanooga.craigslist.org/ctd/d/chattanooga-2020-ram-2500-crew-cab-big/7308295377.html'
 'https://newjersey.craigslist.org/ctd/d/carlstadt-2016-ford-explorer/7316380095.html'
 'https://reno.craigslist.org/ctd/d/atlanta-2017-vw-volkswagen-golf/7313733749.html'
 ...
 'https://salem.craigslist.org/ctd/d/salem-2011-audi-a3-20t-premium-plus-pzev/7310993818.html'
 'https://madison.craigslist.org/ctd/d/madison-2015-porsche-cayenne-awd-4dr-e/7306637427.html'
 'https://norfolk.craigslist.org/ctd/d/chesapeake-2017-ram-1500-crew-cab-big/7311960763.html']
region
количество уникальных значений 393
список значений:
['chattanooga' 'north jersey' 'reno / tahoe' 'fayetteville'
 'new york city' 'knoxville' 'des moines' 'roanoke' 'grand rapids'
 'omaha / council bluffs' 'rhode island' 'cincinnati' 'jacksonvill

In [61]:
# Итерируемся по каждой колонке в DataFrame
for column in df.columns:
    print(f'===== {column} =====')
    # Получаем количество уникальных значений
    unique_values_count = df[column].nunique()
    print(f'Количество уникальных значений: {unique_values_count}')
    
    # Получаем список возможных значений и их количество появления
    value_counts = df[column].value_counts()
    for value, count in value_counts.items():
        print(f'{value}: {count}')
    print('\n')  # Для отделения информации между 

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)




2021-04-14T15:10:35-0400: 1
2021-04-23T20:51:44-0700: 1
2021-04-23T07:48:10-0500: 1
2021-05-04T11:40:02-0400: 1
2021-04-28T12:50:34-0700: 1
2021-04-16T15:56:31-0400: 1
2021-04-20T11:25:22-0700: 1
2021-04-24T15:03:38-0700: 1
2021-04-22T16:36:04-0500: 1
2021-04-29T16:51:11-0500: 1
2021-05-03T12:38:21-0400: 1
2021-04-28T17:55:30-0400: 1
2021-04-28T11:51:00-0600: 1
2021-04-26T11:06:51-0400: 1
2021-04-26T09:30:55-0500: 1
2021-04-12T11:05:59-0400: 1
2021-04-28T19:02:38-0600: 1
2021-04-20T18:28:24-0700: 1
2021-05-04T07:59:24-0500: 1
2021-04-29T21:31:08-0400: 1
2021-04-21T15:35:24-0400: 1
2021-05-02T20:20:53-0500: 1
2021-05-01T09:00:25-0400: 1
2021-04-29T10:05:17-0400: 1
2021-05-03T11:53:58-0600: 1
2021-05-03T16:11:21-0700: 1
2021-04-14T18:24:29-0400: 1
2021-04-18T05:41:23-0400: 1
2021-04-17T08:47:38-0400: 1
2021-04-18T22:36:23-0500: 1
2021-04-28T09:01:11-0500: 1
2021-04-26T08:18:26-0400: 1
2021-05-01T10:20:24-0400: 1
2021-05-02T11:19:23-0400: 1
2021-05-02T15:11:06-0400: 1
2021-04-17T10:21:48

### Задача 3. Определение типов переменных в датасете
**Что нужно сделать**

После ознакомления с характеристиками заполните в таблице, к какому типу относятся некоторые переменные. Для этого на пересечении названия переменной и типа переменной проставьте «X».


|  Переменная    | Дискретная | Непрерывная | Качественная |
|----------------|------------|-------------|--------------|
| id             | X          |             |              |
| region         |            |             |    X         |
| year           |            |     X        |              |
| manufacturer   |            |             |        X      |
| condition      |            |             |      X        |
| fuel           |            |             |        X      |
| odometer       |            |             |              |
| title_status   |            |             |              |
| transmission   |            |             |              |
| VIN            |            |             |              |
| drive          |            |     X        |              |
| paint_color    |            |             |            X  |
| state          |            |             |             X |
| price_category |            |             |            X  |


### Задача 4. Определение целевой переменной в данных и распределения переменных
**Что нужно сделать**

1. Исходя из поставленной задачи определите, в какой колонке находится целевая переменная.



**Ответ:** price_category

2. Выведите для каждого значения целевой переменной его долю вхождения в выборку.


In [69]:
df['price_category'].value_counts()

price_category
high      3514
medium    3294
low       3242
Name: count, dtype: int64

3. Ещё раз посмотрите на долю или количество вхождений каждого значения целевой переменной в выборку и напишите, какое это распределение. Определить, как распределены значения целевой переменной, в данном случае можно и без графика. 

**Ответ:** _ваш ответ_

равномерное распределение