# Data Preparation. Практическая работа

## Цели практической работы
1. Потренироваться определять типы переменных в датасете, целевую переменную из постановки задачи, распределение переменных.
2. Познакомиться с задачей, предстоящей на этапе моделирования.
3. Начать исследовать данные для этапа моделирования.



## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета.
3. Определить типы переменных в датасете.
4. Определить целевую переменную в данных и распределение переменных.




## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.


## Задача

Начиная с этого урока вы начнёте исследовать и готовить данные для этапа моделирования.

Вам предстоит работать с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах, представленной в файле `data/vehicles_dataset.csv`. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.
В этой практической работе вы загрузите датасет и начнёте его исследование.


## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


In [2]:
# Импортируйте необходимые библиотеки
import pandas as pd


### Задача 1. Загрузка датасета и ознакомление с ним
**Что нужно сделать**

Для начала требуется загрузить датасет и ознакомиться с его характеристиками.

1. Загрузите датасет из `data/vehicles_dataset.csv` и выведите его.


In [14]:
# Ваш код здесь
dataset = pd.read_csv("vehicles_dataset.csv")
print(dataset.head())
#странно было бы выводить весь датасет

           id                                                url  \
0  7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1  7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2  7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3  7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4  7316474668  https://newyork.craigslist.org/lgi/cto/d/baldw...   

          region                           region_url  price    year  \
0    chattanooga   https://chattanooga.craigslist.org  54990  2020.0   
1   north jersey     https://newjersey.craigslist.org  16942  2016.0   
2   reno / tahoe          https://reno.craigslist.org  35590  2017.0   
3   fayetteville  https://fayetteville.craigslist.org  14500  2013.0   
4  new york city       https://newyork.craigslist.org  21800  2021.0   

  manufacturer                   model condition    cylinders  ...    type  \
0          ram  2500 crew cab big horn      good          NaN  ...  pickup   
1 

In [None]:
dataset.head()

2. Выведите размер датасета.


In [4]:
# Ваш код здесь
print(dataset.shape)

(10050, 27)


3. Выведите список колонок датасета.

In [5]:
# Ваш код здесь
print(dataset.columns)

Index(['id', 'url', 'region', 'region_url', 'price', 'year', 'manufacturer',
       'model', 'condition', 'cylinders', 'fuel', 'odometer', 'title_status',
       'transmission', 'VIN', 'drive', 'size', 'type', 'paint_color',
       'image_url', 'description', 'county', 'state', 'lat', 'long',
       'posting_date', 'price_category'],
      dtype='object')


4. Выведите описательные статистики для всего датасета (обязательно укажите верный параметр для этого).

In [6]:
# Ваш код здесь
print(dataset.describe(include='all'))

                  id                                                url  \
count   1.005000e+04                                              10050   
unique           NaN                                              10000   
top              NaN  https://roswell.craigslist.org/cto/d/artesia-1...   
freq             NaN                                                  2   
mean    7.311544e+09                                                NaN   
std     4.475414e+06                                                NaN   
min     7.208550e+09                                                NaN   
25%     7.308193e+09                                                NaN   
50%     7.312756e+09                                                NaN   
75%     7.315275e+09                                                NaN   
max     7.317090e+09                                                NaN   

                 region                         region_url         price  \
count             10050

### Задача 2. Исследование переменных датасета
**Что нужно сделать**

После ознакомления с датасетом посмотрите, какие значения принимают переменные с характеристиками.

Распечатайте в цикле по каждой колонке название колонки, количество уникальных значений, а затем список возможных значений вместе с их количеством появления в датасете.

При выводе информации по каждой характеристике придерживайтесь шаблона.

```
Характеристика: id
Количество уникальных значений: 10000
Список значений:
7303629857    2
7315995136    2
7316719393    2
7309842734    2
7307971804    2
             ..
7303843163    1
7315223900    1
7309940769    1
7309251820    1
7316428067    1
Name: id, Length: 10000, dtype: int64
```

In [8]:
for column in dataset.columns:
    print("Характеристика:", column)
    print("Количество уникальных значений:", dataset[column].nunique())
    print("Список значений:")
    for value, count in dataset[column].value_counts().items():
        print(f"{value} {count}")
    print(f"Name: {column}, Length: {len(dataset[column])}, dtype: {dataset[column].dtype}")
    # у меня код не работает по нормальному, тк слишком много значений

Характеристика: id
Количество уникальных значений: 10000
Список значений:


TypeError: 'zip' object is not subscriptable

In [13]:
for column in dataset.columns:
    print("Характеристика:", column)
    print("Количество уникальных значений:", dataset[column].nunique())
    print("Список значений:")
    #i = 0
    #for value, count in dataset[column].value_counts().items():
    #    print(f"{value} {count}")
    #    i += 1
    #    if i == 10:
    #        break
    print(f"Name: {column}, Length: {len(dataset[column])}, dtype: {dataset[column].dtype}")

Характеристика: id
Количество уникальных значений: 10000
Список значений:
Name: id, Length: 10050, dtype: int64
Характеристика: url
Количество уникальных значений: 10000
Список значений:
Name: url, Length: 10050, dtype: object
Характеристика: region
Количество уникальных значений: 393
Список значений:
Name: region, Length: 10050, dtype: object
Характеристика: region_url
Количество уникальных значений: 405
Список значений:
Name: region_url, Length: 10050, dtype: object
Характеристика: price
Количество уникальных значений: 2227
Список значений:
Name: price, Length: 10050, dtype: int64
Характеристика: year
Количество уникальных значений: 89
Список значений:
Name: year, Length: 10050, dtype: float64
Характеристика: manufacturer
Количество уникальных значений: 39
Список значений:
Name: manufacturer, Length: 10050, dtype: object
Характеристика: model
Количество уникальных значений: 3466
Список значений:
Name: model, Length: 10050, dtype: object
Характеристика: condition
Количество уникальных

### Задача 3. Определение типов переменных в датасете
**Что нужно сделать**

После ознакомления с характеристиками заполните в таблице, к какому типу относятся некоторые переменные. Для этого на пересечении названия переменной и типа переменной проставьте «X».


|  Переменная    | Дискретная | Непрерывная | Качественная |
|----------------|------------|-------------|--------------|
| id             | X          |             |              |
| region         |            |             | X            |
| year           |            |  X          |              |
| manufacturer   |            |             | X            |
| condition      |            |             | X            |
| fuel           |            |             | X            |
| odometer       |            |  X          |              |
| title_status   |            |             | X            |
| transmission   |            |             | x            |
| VIN            | X          |             |              |
| drive          |            |             | X            |
| paint_color    |            |             | X            |
| state          |            |             | X            |
| price_category |            |             | x            |


### Задача 4. Определение целевой переменной в данных и распределения переменных
**Что нужно сделать**

1. Исходя из поставленной задачи определите, в какой колонке находится целевая переменная.



**Ответ:** _price_

2. Выведите для каждого значения целевой переменной его долю вхождения в выборку.


In [17]:
# Ваш код здесь
print(dataset['price'].value_counts().sort_values(ascending=False))

price
6995     112
29990     91
7995      81
8995      76
9995      73
        ... 
41200      1
47993      1
8895       1
33777      1
1575       1
Name: count, Length: 2227, dtype: int64


3. Ещё раз посмотрите на долю или количество вхождений каждого значения целевой переменной в выборку и напишите, какое это распределение. Определить, как распределены значения целевой переменной, в данном случае можно и без графика. 

**Ответ:** _Данные или распрелены левее медианы или имеет 2 вершины_

In [18]:
dataset['price'].value_counts().sort_values(ascending=False)


price
6995     112
29990     91
7995      81
8995      76
9995      73
        ... 
41200      1
47993      1
8895       1
33777      1
1575       1
Name: count, Length: 2227, dtype: int64