# Набор данных

**Оценка стоимости  и типа трансмиссии по данным продаж автомобилей на вторичном рынке Молдавии**

Набор данных представляет собой статистику параметров автомобилей на вторичном рынке в Молдавии. 

Набор включает ряд категориальных и численных значений, составляющих одну запись (строку). Число записей можно найти как число строк.

Каждый столбец в записи — это отдельный параметр. 

Среди указанных параметров приведены целевой для задачи предсказания (регрессии) - цена автомобиля.

 Также среди параметров есть целевой для задачи классификации - тип трансмиссии. 
 
 Последняя задача может быть рассмотрена, например, как пример задачи на заполнение пропусков (если продавец не указал соответствующий параметр).

# Import библиотек

In [None]:
import pandas as pd # Библиотека Pandas для работы с табличными данными

from google.colab import files  # чтобы загружать файлы в облако через проводник 

# Загрузка данных на Google Drive

In [None]:
uploaded = files.upload() #просто запускаем и выбираем файл в проводнике

# Считываем файл в DataFrame



метод `.read_csv(path,delimiter) `

In [None]:
df = pd.read_csv('/content/cars_moldova.csv', delimiter = ',') # Открываем загруженный файл, через полный путь к файлу (с именем)

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/dayekb/Basic_ML_Alg/main/cars.csv', delimiter = ',') # можно считывать открытые файлы из интернета

In [None]:
df # в блокнотах Colab если запустить ячеку с переменной, то будет визуализирована эта переменная 

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,Automatic,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
...,...,...,...,...,...,...,...,...,...
41002,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
41003,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
41004,Mercedes,E Class,2016,Sedan,50000.0,1950.0,Diesel,Automatic,29500.0
41005,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0


# Информация о DataFrame


Метод `.info() `

In [None]:
df.info() # информация о данных в датафрейме: сколько строк, какие данные в столбцах, сколько пропущенных значений (Nan-values)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41007 entries, 0 to 41006
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Make                  41007 non-null  object 
 1   Model                 41007 non-null  object 
 2   Year                  41007 non-null  int64  
 3   Style                 41007 non-null  object 
 4   Distance              41007 non-null  float64
 5   Engine_capacity(cm3)  41007 non-null  float64
 6   Fuel_type             41007 non-null  object 
 7   Transmission          41007 non-null  object 
 8   Price(euro)           41007 non-null  float64
dtypes: float64(3), int64(1), object(5)
memory usage: 2.8+ MB


# Поиск Дубликатов
 


методы `.duplicated()` и `.sum()`

In [None]:
df.duplicated().sum() # метод .duplicated() возвращает данные в бинарном виде: является ли отдельная строка дубликатом (True если является)
#Просуммировав мы узнаем сколько всего дубликатов 

3743

**Удаление дубликатов**

Методы `.drop_duplicates()` и `.reset_index()`

In [None]:
DF = df.drop_duplicates() # Складываем в новый датафрейм резльтат удаления дубликатов

DF = DF.reset_index(drop=True) # обновим индексы в датафрейме DF. если бы мы прописали drop = False, то была бы еще одна колонка - старые индексы

DF

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,Automatic,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
...,...,...,...,...,...,...,...,...,...
37259,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,Manual,4400.0
37260,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
37261,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
37262,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0


In [None]:
DF.duplicated().sum() # проверили что дубликатов нет

0

# Индексация

**Визуализация части DataFrame**

Метод `.head(n)` - первые `n` строк

In [None]:
DF.head(6)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,Automatic,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
5,Mercedes,Vito,2000,Microvan,300000.0,2200.0,Diesel,Manual,3490.0


Метод `.tail(n)` - последние `n` строк

In [None]:
DF.tail(9)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
37255,Renault,Megane,2011,Sedan,145000.0,1500.0,Diesel,Automatic,6200.0
37256,Toyota,Auris,2007,Hatchback,222111.0,1400.0,Diesel,Automatic,4444.0
37257,Skoda,Superb,2016,Cabriolet,78900.0,2000.0,Petrol,Automatic,21000.0
37258,Volkswagen,Passat,2016,Sedan,88000.0,1800.0,Petrol,Automatic,11500.0
37259,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,Manual,4400.0
37260,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
37261,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
37262,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0
37263,Renault,Grand Scenic,2006,Minivan,300000.0,1500.0,Diesel,Manual,4000.0


**Индексация**

аттрибут `.loc[строки, столбцы]`

In [None]:
DF.loc[1437,'Transmission'] # конкретная ячейка 

'Automatic'

In [None]:
DF.loc[:,'Transmission'] # столбец в формате Серий (Series)

0        Automatic
1           Manual
2           Manual
3           Manual
4           Manual
           ...    
37259       Manual
37260       Manual
37261       Manual
37262       Manual
37263       Manual
Name: Transmission, Length: 37264, dtype: object

In [None]:
DF.loc[:,['Transmission']].head(5) # столбец в формате датафрейма

Unnamed: 0,Transmission
0,Automatic
1,Manual
2,Manual
3,Manual
4,Manual


In [None]:
DF.loc[:,['Transmission','Year']].head(5) #несколько столбцов перечислением

Unnamed: 0,Transmission,Year
0,Automatic,2011
1,Manual,2014
2,Manual,1998
3,Manual,2012
4,Manual,2006


In [None]:
DF.loc[:,'Make':'Style'].head(5) #несколько столбцов в формате "от" и "до"

Unnamed: 0,Make,Model,Year,Style
0,Toyota,Prius,2011,Hatchback
1,Renault,Grand Scenic,2014,Universal
2,Volkswagen,Golf,1998,Hatchback
3,Renault,Laguna,2012,Universal
4,Opel,Astra,2006,Universal


In [None]:
DF.loc[69,:] # строка в формате Серий (Series)

Make                        Honda
Model                        CR-V
Year                         2002
Style                   Universal
Distance                   275100
Engine_capacity(cm3)         2000
Fuel_type                  Petrol
Transmission               Manual
Price(euro)                  5900
Name: 69, dtype: object

In [None]:
DF.loc[69:69,:] # строка в формате датафрейма

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
69,Honda,CR-V,2002,Universal,275100.0,2000.0,Petrol,Manual,5900.0


In [None]:
DF.loc[322:1437,:] # несколько строк

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
322,Skoda,Octavia,2010,Universal,1.0,1400.0,Petrol,Manual,5350.0
323,Mercedes,E Class,2016,Sedan,161024.0,2200.0,Diesel,Automatic,26950.0
324,Honda,Civic,2006,Hatchback,195000.0,1400.0,Petrol,Manual,5400.0
325,Ford,Fusion,2015,Sedan,124000.0,2000.0,Plug-in Hybrid,Automatic,11499.0
326,Ford,Fusion,2003,Hatchback,330000.0,1400.0,Diesel,Automatic,4100.0
...,...,...,...,...,...,...,...,...,...
1433,Peugeot,208,2013,Hatchback,154000.0,1400.0,Diesel,Automatic,6999.0
1434,Infiniti,QX30,2017,SUV,91000.0,1500.0,Diesel,Automatic,15490.0
1435,Ford,Kuga,2016,SUV,102500.0,1500.0,Diesel,Manual,14490.0
1436,Ford,Kuga,2018,SUV,122100.0,1500.0,Diesel,Manual,14250.0


In [None]:
DF.loc[227:229,'Make':'Fuel_type'] #некоторые столбцы и строки

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type
227,Opel,Calibra,1992,Coupe,400000.0,2000.0,Metan/Propan
228,Renault,Kadjar,2016,Crossover,150425.0,1500.0,Diesel
229,Ford,Fusion,2018,Sedan,105000.0,2000.0,Hybrid


**Логическое Индексирование**

In [None]:
DF[DF['Transmission']=='Manual'] # можно ставить произвольные условия

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
5,Mercedes,Vito,2000,Microvan,300000.0,2200.0,Diesel,Manual,3490.0
...,...,...,...,...,...,...,...,...,...
37259,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,Manual,4400.0
37260,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
37261,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
37262,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0


In [None]:
DF[(DF['Transmission']=='Manual') & (DF['Year']>2000)] #пример как объединить два условия вместе

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
6,Volkswagen,Passat,2010,Universal,290000.0,1390.0,Petrol,Manual,5600.0
9,BMW,5 Series,2004,Sedan,325000.0,300.0,Diesel,Manual,3400.0
...,...,...,...,...,...,...,...,...,...
37259,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,Manual,4400.0
37260,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
37261,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
37262,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0


# Сортировка DataFrame



Метод `.sort_values(by)`

In [None]:
DF.sort_values(by = 'Price(euro)').tail(5) # по возрастанию

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
13131,Toyota,Land Cruiser Prado,2012,SUV,10005.0,3000.0,Diesel,Automatic,200000.0
14834,Volkswagen,Caddy,2015,Combi,158260.0,1395.0,Metan/Propan,Manual,200000.0
29132,Mercedes,G Class,2020,SUV,3000.0,3982.0,Petrol,Automatic,215000.0
17849,KIA,Sportage,2018,Crossover,46000.0,1600.0,Petrol,Automatic,490000.0
33677,Brilliance,BS3,2009,Sedan,57000.0,1598.0,Petrol,Manual,10000000.0



Метод `.sort_values(by, ascending= False)`

In [None]:
DF.sort_values(by = 'Year', ascending= False).head(5) # по убыванию

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
29164,Audi,A5,2021,Sedan,661.0,2000.0,Petrol,Automatic,32200.0
32583,Mercedes,GLS Klass,2021,SUV,0.0,3000.0,Diesel,Automatic,107528.0
15611,Volkswagen,Polo,2021,Universal,280000.0,1400.0,Petrol,Manual,1900.0
6044,Skoda,Superb,2021,Sedan,0.0,1500.0,Petrol,Automatic,30000.0
11840,Toyota,Corolla,2021,Universal,288.0,1987.0,Hybrid,Automatic,23000.0


# Сохранение DataFrame в файл


Метод `.to_csv(path, index)`

In [None]:
DF.to_csv('/content/cars_moldova_no_dup.csv',index=False) # если хотим чтобы и индексы сохранились - пишем index = True

# Контрольные вопросы

Вопрос: 
<b> Назовите тип данных категориальных столбцов в Pandas


Вопрос: 
<b>Назовите целевой столбец для задачи регрессии

Вопрос: 
<b>Назовите целевой столбец для задачи классификации


Вопрос: 
<b>Возьмите датафрейм после удаления дубликатов. Выберете из полного датафрейма строки с индекса 69 по 322. Отсортируйте полученный датафрейм по колонке  'Distance' по убыванию. Какое значение колонки  'Style' у полученного датафрейма во второй строке сверху 

Вопрос:
<b> Укажите правильную размерность исходного набора данных