## 0. Описание задачи
Таблица содержит данные о 46405 автомобилях и 9 признаков:

- `make` - марка авто
- `model` - модель авто
- `mileage` - пробег автомобиля
- `fuel` - тип топлива двигателя
- `gear` - тип трансмиссии
- `offerType` - поддерженная машина или нет
- `price` - цена машины
- `hp` - мощность машины (в лошадях)
- `year` - год выпуска машины

Постановка задачи:

Требуется предсказать категориальный признак `price`, представленный в числовом виде (стоимость машины) по остальным признакам. Это задача классификации.

## Библиотеки:

In [2]:
import numpy as np              # Массивы (матрицы, векторы, линейная алгебра)
import matplotlib.pyplot as plt # Научная графика
%matplotlib inline 
import pandas as pd             # Таблицы и временные ряды (dataframe, series)
import seaborn as sns           # Графики для визуализации данных
import sklearn                  # Алгоритмы машинного обучения

### Загружаем данные:

In [3]:
data = pd.read_csv("data.csv")

Этот метод отображает первые строки (по умолчанию, 5 строк) таблицы:

In [4]:
data.head()

Unnamed: 0,mileage,make,model,fuel,gear,offerType,price,hp,year
0,235000,BMW,316,Diesel,Manual,Used,6800,116.0,2011
1,92800,Volkswagen,Golf,Gasoline,Manual,Used,6877,122.0,2011
2,149300,SEAT,Exeo,Gasoline,Manual,Used,6900,160.0,2011
3,96200,Renault,Megane,Gasoline,Manual,Used,6950,110.0,2011
4,156000,Peugeot,308,Gasoline,Manual,Used,6950,156.0,2011


Метод data.tail() отображает последние строки (по умолчанию, 5 строк) таблицы:

In [5]:
data.tail()

Unnamed: 0,mileage,make,model,fuel,gear,offerType,price,hp,year
46400,99,Fiat,500,Electric/Gasoline,Manual,Pre-registered,12990,71.0,2021
46401,99,Fiat,500,Electric/Gasoline,Manual,Pre-registered,12990,71.0,2021
46402,99,Fiat,500,Electric/Gasoline,Manual,Pre-registered,12990,71.0,2021
46403,99,Fiat,500,Electric/Gasoline,Manual,Pre-registered,12990,71.0,2021
46404,99,Fiat,500,Electric/Gasoline,Manual,Pre-registered,12990,71.0,2021


C помощью метода columns можем получить имена признаков:

In [6]:
data.columns

Index(['mileage', 'make', 'model', 'fuel', 'gear', 'offerType', 'price', 'hp',
       'year'],
      dtype='object')

Анализ признаков: 


In [7]:
data.index

RangeIndex(start=0, stop=46405, step=1)

In [8]:
data.dtypes

mileage        int64
make          object
model         object
fuel          object
gear          object
offerType     object
price          int64
hp           float64
year           int64
dtype: object

Столбцы `Make`, `Model`, `Engine Fuel Type`, `Transmission Type`, `Driven_Wheels`, `Market Category`, `Vehicle Size`, `Vehicle Style` содержат категориальные значения. Пока они имеют тип `'Object`'. Заменим тип на специальный, предназначенный для хранения категориальных значений:

In [None]:
data['Make'] = data['Make'].astype('category')
data['Model'] = data['Model'].astype('category')
data['Engine Fuel Type'] = data['Engine Fuel Type'].astype('category')
data['Transmission Type'] = data['Transmission Type'].astype('category')
data['Driven_Wheels'] = data['Driven_Wheels'].astype('category')
data['Market Category'] = data['Market Category'].astype('category')
data['Vehicle Size'] = data['Vehicle Size'].astype('category')
data['Vehicle Style'] = data['Vehicle Style'].astype('category')

data['Vehicle Style'] = data['Vehicle Style'].astype('category')

In [None]:
data.dtypes

### Доступ к отдельным элементам и выделение подтаблиц (slice)