# Data Preparation. Практическая работа

## Цели практической работы
1. Потренироваться определять типы переменных в датасете, целевую переменную из постановки задачи, распределение переменных.
2. Познакомиться с задачей, предстоящей на этапе моделирования.
3. Начать исследовать данные для этапа моделирования.



## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета.
3. Определить типы переменных в датасете.
4. Определить целевую переменную в данных и распределение переменных.




## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.
- Репозиторий проекта содержит осмысленные коммиты, содержащие конкретные реализованные фичи, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них уроках.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.


## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему проверяющему преподавателю.


## Задача

Начиная с этого урока вы начнёте исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.
В этой практической работе вы загрузите датасет и начнёте его исследование.


## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


In [None]:
# Импортируйте необходимые библиотеки

### Задача 1. Загрузка датасета и ознакомление с ним
**Что нужно сделать**

Для начала требуется загрузить датасет и ознакомиться с его характеристиками.

1. Загрузите датасет из `data/vehicles_dataset.csv` и выведите его.


In [3]:
# Ваш код здесь
import pandas as pd

2. Выведите размер датасета.


In [4]:
# Ваш код здесь
df = pd.read_csv('vehicles_dataset.csv')

# Display the first few rows of the dataframe
print(df.head())

           id                                                url  \
0  7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1  7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2  7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3  7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4  7316474668  https://newyork.craigslist.org/lgi/cto/d/baldw...   

          region                           region_url  price    year  \
0    chattanooga   https://chattanooga.craigslist.org  54990  2020.0   
1   north jersey     https://newjersey.craigslist.org  16942  2016.0   
2   reno / tahoe          https://reno.craigslist.org  35590  2017.0   
3   fayetteville  https://fayetteville.craigslist.org  14500  2013.0   
4  new york city       https://newyork.craigslist.org  21800  2021.0   

  manufacturer                   model condition    cylinders  ...    type  \
0          ram  2500 crew cab big horn      good          NaN  ...  pickup   
1 

3. Выведите список колонок датасета.

In [5]:
# Ваш код здесь
# Print the list of columns in the dataset
print("Columns list:", df.columns.tolist())


Columns list: ['id', 'url', 'region', 'region_url', 'price', 'year', 'manufacturer', 'model', 'condition', 'cylinders', 'fuel', 'odometer', 'title_status', 'transmission', 'VIN', 'drive', 'size', 'type', 'paint_color', 'image_url', 'description', 'county', 'state', 'lat', 'long', 'posting_date', 'price_category']


4. Выведите описательные статистики для всего датасета (обязательно укажите верный параметр для этого).

In [6]:
# Ваш код здесь
# Print descriptive statistics for the dataset
print(df.describe(include='all'))


                  id                                                url  \
count   1.005000e+04                                              10050   
unique           NaN                                              10000   
top              NaN  https://roswell.craigslist.org/cto/d/artesia-1...   
freq             NaN                                                  2   
mean    7.311544e+09                                                NaN   
std     4.475414e+06                                                NaN   
min     7.208550e+09                                                NaN   
25%     7.308193e+09                                                NaN   
50%     7.312756e+09                                                NaN   
75%     7.315275e+09                                                NaN   
max     7.317090e+09                                                NaN   

                 region                         region_url         price  \
count             10050

### Задача 2. Исследование переменных датасета
**Что нужно сделать**

После ознакомления с датасетом посмотрите, какие значения принимают переменные с характеристиками.

Распечатайте в цикле по каждой колонке название колонки, количество уникальных значений, а затем список возможных значений вместе с их количеством появления в датасете.

При выводе информации по каждой характеристике придерживайтесь шаблона.

```
Характеристика: id
Количество уникальных значений: 10000
Список значений:
7303629857    2
7315995136    2
7316719393    2
7309842734    2
7307971804    2
             ..
7303843163    1
7315223900    1
7309940769    1
7309251820    1
7316428067    1
Name: id, Length: 10000, dtype: int64
```

In [7]:
# Ваш код здесь
for column in df.columns:
    print(f"Characteristic: {column}")
    print("Number of unique values:", df[column].nunique())
    print("List of values:")
    print(df[column].value_counts().head())  # Adjust the number to display as needed
    print("\n")


Characteristic: id
Number of unique values: 10000
List of values:
id
7316028281    2
7310693445    2
7310816094    2
7307639785    2
7312525382    2
Name: count, dtype: int64


Characteristic: url
Number of unique values: 10000
List of values:
url
https://roswell.craigslist.org/cto/d/artesia-1999-ford-f250-super-duty-super/7316028281.html      2
https://pueblo.craigslist.org/ctd/d/tempe-2017-ford-450-f450-450-drw-lariat/7310693445.html       2
https://monroe.craigslist.org/ctd/d/monroe-2019-infiniti-qx60-luxe/7310816094.html                2
https://flint.craigslist.org/ctd/d/davison-2010-ford-150-xlt-supercrew/7307639785.html            2
https://charlotte.craigslist.org/cto/d/myrtle-beach-1947-mercury-hotrod-street/7312525382.html    2
Name: count, dtype: int64


Characteristic: region
Number of unique values: 393
List of values:
region
kansas city, MO          86
minneapolis / st paul    83
grand rapids             82
sarasota-bradenton       82
colorado springs         81
Name: cou

### Задача 3. Определение типов переменных в датасете
**Что нужно сделать**

После ознакомления с характеристиками заполните в таблице, к какому типу относятся некоторые переменные. Для этого на пересечении названия переменной и типа переменной проставьте «X».


|  Переменная    | Дискретная | Непрерывная | Качественная |
|----------------|------------|-------------|--------------|
| id             | X          |             |              |
| region         |            |             |         X     |
| year           |    X        |             |              |
| manufacturer   |            |             |         X     |
| condition      |            |             |         X     |
| fuel           |            |             |       X       |
| odometer       |            |       X      |              |
| title_status   |            |             |        X      |
| transmission   |            |             |        X      |
| VIN            |            |             |         X     |
| drive          |            |             |        X      |
| paint_color    |            |             |       X       |
| state          |            |             |        X      |
| price_category |            |             |       X       |


### Задача 4. Определение целевой переменной в данных и распределения переменных
**Что нужно сделать**

1. Исходя из поставленной задачи определите, в какой колонке находится целевая переменная.

**Ответ:** _ваш ответ_
Исходя из постановки задачи и описания датасета, целевая переменная в данных находится в колонке price_category. Эта переменная классифицирует автомобили по категориям цен и является ключевым элементом для задачи классификации, которую предстоит решить.

Целевая переменная price_category позволяет определить, к какой категории цены относится подержанный автомобиль, на основе его характеристик и данных о продаже. Это может быть высокая, средняя или низкая категория цены.


2. Выведите для каждого значения целевой переменной его долю вхождения в выборку.


In [8]:
# Ваш код здесь
# Calculate and print the distribution of the target variable 'price_category'
print(df['price_category'].value_counts(normalize=True) * 100)

price_category
high      34.965174
medium    32.776119
low       32.258706
Name: proportion, dtype: float64


3. Ещё раз посмотрите на долю или количество вхождений каждого значения целевой переменной в выборку и напишите, какое это распределение. Определить, как распределены значения целевой переменной, в данном случае можно и без графика. 

**Ответ:** _ваш ответ_
Распределение значений целевой переменной price_category является равномерным с небольшим преобладанием высокой категории цен. Это указывает на то, что в выборке присутствует сбалансированное представление автомобилей разных ценовых категорий, что важно для задачи классификации и может способствовать более эффективному обучению модели.






