# Набор данных

**Оценка стоимости  и типа трансмиссии по данным продаж автомобилей на вторичном рынке Молдавии**

Набор данных представляет собой статистику параметров автомобилей на вторичном рынке в Молдавии. 

Набор включает ряд категориальных и численных значений, составляющих одну запись (строку). Число записей можно найти как число строк.

Каждый столбец в записи — это отдельный параметр. 

Среди указанных параметров приведены целевой для задачи предсказания (регрессии) - цена автомобиля.

 Также среди параметров есть целевой для задачи классификации - тип трансмиссии. 
 
 Последняя задача может быть рассмотрена, например, как пример задачи на заполнение пропусков (если продавец не указал соответствующий параметр).

# Import библиотек

Импортируем библиотеку pandas для удобной обработки и последующего анализа данных.

In [2]:
import pandas as pd

Pandas — одна из самых популярных библиотек Python для аналитики и работы с Data Science.
Это как SQL для Python. Все потому, что pandas позволяет работать с двухмерными таблицами данных в Python.


# Считываем файл в DataFrame



метод .read_csv(path,delimiter) 
-------

Нам необходимо передать информацию в удобном виде для интерпретатора пайтона, для этого используется метод read._csv из библиотеки пандас, на входе функция принимает путь к файлу и сепаратор(разделитель)
Для загрузки .csv файла с данными в pandas используется функция read_csv().
delimiter это разделитель. 


In [3]:
df = pd.read_csv('cars_moldova.csv', delimiter = ',')

Чтобы вывести содержимое файла, достаточно вызвать переменную, в которой записана функция

---

вся информация которая была в csv файле теперь записана в переменной df, поэтому выводя её мы получаем таблицу

In [4]:
df

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,Automatic,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
...,...,...,...,...,...,...,...,...,...
41002,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
41003,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
41004,Mercedes,E Class,2016,Sedan,50000.0,1950.0,Diesel,Automatic,29500.0
41005,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0


# Информация о DataFrame


Метод .info() 
------

Метод info() напечатал тип этого объекта, диапазон, столбцы, количество записей в каждом столбце, если столбцы не равны нулю.
С помощью данного метода можно посмотреть в каких колоннках сколько не нулевых значений и какого типа данные хранятся в данных колоннках

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41007 entries, 0 to 41006
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Make                  41007 non-null  object 
 1   Model                 41007 non-null  object 
 2   Year                  41007 non-null  int64  
 3   Style                 41007 non-null  object 
 4   Distance              41007 non-null  float64
 5   Engine_capacity(cm3)  41007 non-null  float64
 6   Fuel_type             41007 non-null  object 
 7   Transmission          41007 non-null  object 
 8   Price(euro)           41007 non-null  float64
dtypes: float64(3), int64(1), object(5)
memory usage: 2.8+ MB


# Поиск Дубликатов
 

Метод duplicated()
----
Необходимо определить, есть ли в используемых вами данных повторяющиеся строки. Чтобы проверить дублирование данных, вы можете использовать функцию duplicated().
duplicated() метод находящий уникальные строки на против каждой строки дает булевый параметр отвечающий за то, что это дубликат или нет.


In [9]:
print(df.duplicated())

0        False
1        False
2        False
3        False
4        False
         ...  
41002    False
41003    False
41004     True
41005    False
41006    False
Length: 41007, dtype: bool


метод .sum()
-----
метод .sum() позволят нам сумировать полученые даные. А если объеденить с .duplicated() мы получим число дубликатов.

In [10]:
df.duplicated().sum()

3743

Удаление дубликатов
------

Методы .drop_duplicates() и .reset_index()
------
Метод reset_index() необходим для изменения индексации, так как drop_duplicates() вместе со строками удаляет и их индексы.

Удаляем дубликаты и делаем переиндексацию(индексы у нас после удаления дубликатов "съезжают" поэтому после удаления дубликатов для удобства чтения необходимо произвести переиндексацию(сброс индексов)

In [11]:
df = df.drop_duplicates()

df = df.reset_index(drop=True)

df

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,Automatic,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
...,...,...,...,...,...,...,...,...,...
37259,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,Manual,4400.0
37260,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
37261,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
37262,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0


# Индексация

Визуализация части DataFrame
--------
Метод .head()
--------
Метод Pandas head ()используется для возврата первых n (по умолчанию 5) строк фрейма данных или серии.
Метод .head(n) - первые n строк

In [12]:
df.head(6)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,Automatic,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
5,Mercedes,Vito,2000,Microvan,300000.0,2200.0,Diesel,Manual,3490.0


Метод .tail() 
----------
используется для возврата последних n строк фрейма данных или серии.
Метод .tail(n) - последние n строк

In [13]:
df.tail(9)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
37255,Renault,Megane,2011,Sedan,145000.0,1500.0,Diesel,Automatic,6200.0
37256,Toyota,Auris,2007,Hatchback,222111.0,1400.0,Diesel,Automatic,4444.0
37257,Skoda,Superb,2016,Cabriolet,78900.0,2000.0,Petrol,Automatic,21000.0
37258,Volkswagen,Passat,2016,Sedan,88000.0,1800.0,Petrol,Automatic,11500.0
37259,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,Manual,4400.0
37260,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
37261,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
37262,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0
37263,Renault,Grand Scenic,2006,Minivan,300000.0,1500.0,Diesel,Manual,4000.0


Индексация
----------
Функция .loc []
--------
Функция .loc [строка, столбец] позволяет нам получить доступ к группе строк и столбцов.
Аттрибут .loc[строки, столбцы]  похож на срезы, но только табличный знак двоеточия говорит о том с какого по какой индекс(колонку)

In [14]:
df.loc[1437,'Transmission']

'Automatic'

Двоеточие показывает границу отбора, например, в следующем примере мы отобрали строки со второй по сотую:

In [15]:
df.loc[2:100,'Transmission']

2         Manual
3         Manual
4         Manual
5         Manual
6         Manual
         ...    
96     Automatic
97        Manual
98     Automatic
99     Automatic
100       Manual
Name: Transmission, Length: 99, dtype: object

Ниже с помощью функции .loc[:,'Transmission'] отобраны все строки, имеющие столбец Transmission
 

In [16]:
df.loc[:,'Transmission']

0        Automatic
1           Manual
2           Manual
3           Manual
4           Manual
           ...    
37259       Manual
37260       Manual
37261       Manual
37262       Manual
37263       Manual
Name: Transmission, Length: 37264, dtype: object

Вспомним функцию .head и выведем первые пять строк столбца Transmission

In [17]:
df.loc[:,['Transmission']].head(5)

Unnamed: 0,Transmission
0,Automatic
1,Manual
2,Manual
3,Manual
4,Manual


В следующем примере выведем первые пять строк, включающие столбцы Transmission и Year

In [18]:
df.loc[:,['Transmission','Year']].head(5)

Unnamed: 0,Transmission,Year
0,Automatic,2011
1,Manual,2014
2,Manual,1998
3,Manual,2012
4,Manual,2006


Таким образом, можно выбирать необходимые строки и столбцы, указывать с какой строки выводить данные и так далее. 

In [19]:
df.loc[2:,'Make':'Style'].head(5)

Unnamed: 0,Make,Model,Year,Style
2,Volkswagen,Golf,1998,Hatchback
3,Renault,Laguna,2012,Universal
4,Opel,Astra,2006,Universal
5,Mercedes,Vito,2000,Microvan
6,Volkswagen,Passat,2010,Universal


Далее в примере продемонстрируем возможность вывода одной строки и всех столбцов, например, выведем 69 строку и все столбцы, получим следующий результат:

In [20]:
df.loc[69,:]

Make                        Honda
Model                        CR-V
Year                         2002
Style                   Universal
Distance                 275100.0
Engine_capacity(cm3)       2000.0
Fuel_type                  Petrol
Transmission               Manual
Price(euro)                5900.0
Name: 69, dtype: object

Одну строку можно вывести списком, как показано в примере выше, так и в табличном виде, написал следующий код:

In [21]:
df.loc[69:69]

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
69,Honda,CR-V,2002,Universal,275100.0,2000.0,Petrol,Manual,5900.0


Продемонстрируем вывод среза строк с 322 по 1437:




In [22]:
df.loc[322:1437]

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
322,Skoda,Octavia,2010,Universal,1.0,1400.0,Petrol,Manual,5350.0
323,Mercedes,E Class,2016,Sedan,161024.0,2200.0,Diesel,Automatic,26950.0
324,Honda,Civic,2006,Hatchback,195000.0,1400.0,Petrol,Manual,5400.0
325,Ford,Fusion,2015,Sedan,124000.0,2000.0,Plug-in Hybrid,Automatic,11499.0
326,Ford,Fusion,2003,Hatchback,330000.0,1400.0,Diesel,Automatic,4100.0
...,...,...,...,...,...,...,...,...,...
1433,Peugeot,208,2013,Hatchback,154000.0,1400.0,Diesel,Automatic,6999.0
1434,Infiniti,QX30,2017,SUV,91000.0,1500.0,Diesel,Automatic,15490.0
1435,Ford,Kuga,2016,SUV,102500.0,1500.0,Diesel,Manual,14490.0
1436,Ford,Kuga,2018,SUV,122100.0,1500.0,Diesel,Manual,14250.0


В следующем примере выведем срез строк с 227 по 229, и срез столбцов от столбца Make до Fuel_type.

In [23]:
df.loc[227:229,'Make':'Fuel_type']

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type
227,Opel,Calibra,1992,Coupe,400000.0,2000.0,Metan/Propan
228,Renault,Kadjar,2016,Crossover,150425.0,1500.0,Diesel
229,Ford,Fusion,2018,Sedan,105000.0,2000.0,Hybrid


Логическое Индексирование
--------

Логическое индексирование требует поиска истинных значений для каждой строки. Если вы ищете df['column'] == 'XY', создается True / False.


суть в том что мы у таблицы берем колонку и проверяем чтобы значение во всехх строках выбранной колоннки равнялось выбранному значению

In [24]:
df[df['Transmission']=='Manual']

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,Manual,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,Manual,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,Manual,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,Manual,4100.0
5,Mercedes,Vito,2000,Microvan,300000.0,2200.0,Diesel,Manual,3490.0
...,...,...,...,...,...,...,...,...,...
37259,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,Manual,4400.0
37260,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,Manual,7000.0
37261,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,Manual,4500.0
37262,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,Manual,4000.0


# Сортировка DataFrame



Метод .sort_values()
---------
Метод .sort_values(by) применяется для сортировки датафрейма.
В примере ниже мы сортируем таблицу по возрастанию по стоимости, выводим пять строк с конца

в данной строчку мы сначала сортируем по цене( параметр отвечающий за сортировку по возрастанию по умолчанию true) и далее берем самые дорогие билеты с конца метод tail

In [25]:
df.sort_values(by = 'Price(euro)').tail(5)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
13131,Toyota,Land Cruiser Prado,2012,SUV,10005.0,3000.0,Diesel,Automatic,200000.0
14834,Volkswagen,Caddy,2015,Combi,158260.0,1395.0,Metan/Propan,Manual,200000.0
29132,Mercedes,G Class,2020,SUV,3000.0,3982.0,Petrol,Automatic,215000.0
17849,KIA,Sportage,2018,Crossover,46000.0,1600.0,Petrol,Automatic,490000.0
33677,Brilliance,BS3,2009,Sedan,57000.0,1598.0,Petrol,Manual,10000000.0


Метод .sort_values(by, ascending= False) сортирует необходимые значения по убыванию. Например, отсортируем таблицу по годам по убыванию. Выведем первые пять строк. 
Теперь мы сортируем по году выпуска и по убыванию данного параметра, а так же берем пять верхних значений отсортированной таблицы

In [26]:
df.sort_values(by = 'Year', ascending= False).head(1000)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Transmission,Price(euro)
29164,Audi,A5,2021,Sedan,661.0,2000.0,Petrol,Automatic,32200.0
32583,Mercedes,GLS Klass,2021,SUV,0.0,3000.0,Diesel,Automatic,107528.0
15611,Volkswagen,Polo,2021,Universal,280000.0,1400.0,Petrol,Manual,1900.0
6044,Skoda,Superb,2021,Sedan,0.0,1500.0,Petrol,Automatic,30000.0
11840,Toyota,Corolla,2021,Universal,288.0,1987.0,Hybrid,Automatic,23000.0
...,...,...,...,...,...,...,...,...,...
12922,Honda,Accord,2018,Sedan,16303.0,1500.0,Petrol,Automatic,18999.0
3680,Nissan,Murano,2018,SUV,90.0,2500.0,Hybrid,Automatic,28500.0
27102,Toyota,C-HR,2018,Crossover,117000.0,1800.0,Hybrid,Automatic,18990.0
11746,Audi,A3,2018,Sedan,7000.0,2000.0,Petrol,Automatic,16000.0


# Сохранение DataFrame в файл


Метод .to_csv(path, index)
-------
Мы часто сталкиваемся с ситуациями, когда нам нужно сохранить огромные данные, созданные в результате списания или анализа, в легкой и читаемой, а не общедоступной форме. 

Функция pandas.to_csv () позволяет нам сохранить фрейм данных в виде CSV-файла. Нам нужно передать имя файла в качестве параметра функции.

Метод .to_csv(path, index)  это метод библиотеки пандас необходимый для сохранения обработанных данных в формате csv

In [24]:
df.to_csv('cars_moldova_no_dup.csv',index=False)

# Контрольные вопросы

Вопрос: 
<b> Назовите тип данных категориальных столбцов в Pandas


Make, Model, Style, Fuel_type, Transmission

Вопрос: 
<b>Назовите целевой столбец для задачи регрессии

Price(euro) 

Вопрос: 
<b>Назовите целевой столбец для задачи классификации


Transmission

Вопрос: 
<b>Возьмите датафрейм после удаления дубликатов. Выберете из полного датафрейма строки с индекса 69 по 322. Отсортируйте полученный датафрейм по колонке  'Distance' по убыванию. Какое значение колонки  'Style' у полученного датафрейма во второй строке сверху 

In [27]:
x = df.loc[69:322,:]
y = x.sort_values(by = 'Distance', ascending= False)
y = y.reset_index(drop=True)
y.loc[2,'Style']

'Sedan'

Вопрос:
<b> Укажите правильную размерность исходного набора данных

In [29]:
f = df.shape
print("строк:", f[0],"столбцов:", f[1]) 

строк: 37264 столбцов: 9
