# Введение в Pandas

[Pandas](https://pandas.pydata.org/) — это библиотека Python, предоставляющая широкие возможности для анализа данных. Данные, с которыми работают датасаентисты, часто хранятся в форме табличек — например, в форматах `.csv`, `.tsv` или `.xlsx`. 

С помощью библиотеки Pandas такие табличные данные очень удобно загружать, обрабатывать и анализировать с помощью SQL-подобных запросов. А в связке с библиотеками [визуализации](https://towardsdatascience.com/4-key-players-in-python-data-visualization-ecosystem-matplotlib-seaborn-altair-and-plotly-23ae37a68227/) [`Matplotlib`](https://matplotlib.org/)/[`Seaborn`](https://seaborn.pydata.org/)/[`Plotly`](https://plotly.com/) и библиотеками математической обработки данных[`Numpy`](https://numpy.org/)/[`SciPy`](https://scipy.org/) библиотека Pandas предоставляет широкие возможности визуального анализа табличных данных.

Основной структурой данных в Pandas является класс DataFrame.<br>
__DataFrame__ – это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. Можно представлять её как словарь объектов типа колонки с индексами. Структура DataFrame отлично подходит для представления реальных данных: строки соответствуют признаковым описаниям отдельных объектов, а столбцы соответствуют признакам.

Также Pandas позволяет более оптимально работать с одномерными массивами при помощи класса  Series.<br>
__Series__ - представляет собой одномерный индексированный массив данных некоторого фиксированного типа. 

In [2]:
# импортируем Pandas и Numpy
import pandas as pd
import numpy as np

# Набор данных

## Загрузка набора данных

**Оценка стоимости  и типа трансмиссии по данным продаж автомобилей на вторичном рынке Молдавии**

Набор данных представляет собой статистику параметров автомобилей на вторичном рынке в Молдавии. 

* Набор включает ряд категориальных и численных значений, составляющих одну запись (строку).
* Число записей можно найти как число строк.
* Каждый столбец в записи — это отдельный параметр.
* Среди указанных параметров приведены целевой для задачи предсказания (регрессии) - цена автомобиля.
* Также среди параметров есть целевой для задачи классификации - тип трансмиссии.
* Последняя задача может быть рассмотрена, например, как пример задачи на заполнение пропусков (если продавец не указал соответствующий параметр).

Считываем файл в `DataFrame` - для этого использууем  метод `.read_csv(...)`



In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/MVRonkin/BasicDataAnalysisCourse/refs/heads/main/Workshops/cars.csv')

посмотрим на содержание таблицы

## Визуализация данных

In [342]:
df

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,True,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,False,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,False,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,False,6550.0
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,False,4100.0
...,...,...,...,...,...,...,...,...,...
41002,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,False,7000.0
41003,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,False,4500.0
41004,Mercedes,E Class,2016,Sedan,50000.0,1950.0,Diesel,True,29500.0
41005,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,False,4000.0


Также для вывода можно использовать специальные методы:
* `head` - первые строки таблицы
* `sample` - случайные строки таблицы
* `tail` - последние строки таблицы

посмотрим на 3 первых строки

In [343]:
df.head(3)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,True,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,False,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,False,2200.0


Проверим размер таблицы

In [344]:
print(df.shape)

(41007, 9)


Теперь посмотрим на названия колонок

In [345]:
print(df.columns)

Index(['Make', 'Model', 'Year', 'Style', 'Distance', 'Engine_capacity(cm3)',
       'Fuel_type', 'AutoTransmission', 'Price(euro)'],
      dtype='object')


`DataFrame` можно отсортировать по значению какого-нибудь из признаков. Однако не рекоментся сохранять такой `DataFrame`.

Метод `.sort_values(by)`

In [346]:
df.sort_values(by = 'Price(euro)').tail(5)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
15016,Toyota,Land Cruiser Prado,2012,SUV,10005.0,3000.0,Diesel,True,200000.0
16841,Volkswagen,Caddy,2015,Combi,158260.0,1395.0,Metan/Propan,False,200000.0
32170,Mercedes,G Class,2020,SUV,3000.0,3982.0,Petrol,True,215000.0
20055,KIA,Sportage,2018,Crossover,46000.0,1600.0,Petrol,True,490000.0
37125,Brilliance,BS3,2009,Sedan,57000.0,1598.0,Petrol,False,10000000.0



Метод `.sort_values(by, ascending= False)`

In [347]:
df.sort_values(by = 'Year', ascending= False).head(5)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
32805,Lexus,Es Series,2021,Sedan,19000.0,2495.0,Hybrid,True,30000.0
30384,Hyundai,IONIQ,2021,Crossover,3800.0,0.0,Electric,True,34999.0
13595,Dacia,Duster,2021,Crossover,0.0,1500.0,Diesel,False,17900.0
16405,Mitsubishi,Eclipse Cross,2021,Crossover,0.0,1998.0,Petrol,True,24900.0
38496,Peugeot,2008,2021,Crossover,2500.0,1500.0,Diesel,True,21200.0


## Вывод информации о DataFrame

Выведем информацию о данных при помощи метода `.info() `

In [348]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41007 entries, 0 to 41006
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Make                  40802 non-null  object 
 1   Model                 40802 non-null  object 
 2   Year                  41007 non-null  int64  
 3   Style                 41007 non-null  object 
 4   Distance              41007 non-null  float64
 5   Engine_capacity(cm3)  40802 non-null  float64
 6   Fuel_type             40802 non-null  object 
 7   AutoTransmission      41007 non-null  bool   
 8   Price(euro)           41007 non-null  float64
dtypes: bool(1), float64(3), int64(1), object(4)
memory usage: 2.5+ MB


Из результата видно что `bool`, `int64`, `float64` и `object` — это типы признаков. Видим, что 1 признак — логический (`bool`), 4 признака имеют тип `object` и 3 признаков — числовые c плавоющей точкой (`float`) и 1 целочисленный признак (`int`). Также с помощью метода `info` удобно быстро посмотреть на пропуски в данных, в нашем случае пропуски имеются в столбцах 'Make', 'Model','Engine_capacity(cm3)', 'Fuel_type' - в этих стоблцах на 5 значений меньше, чем в остальных

Проверим где пропуски

In [349]:
missing_values_count = df.isna().sum()
print(missing_values_count)

Make                    205
Model                   205
Year                      0
Style                     0
Distance                  0
Engine_capacity(cm3)    205
Fuel_type               205
AutoTransmission          0
Price(euro)               0
dtype: int64



Дополнительно найдем дбликаты данных (методы `.duplicated()` и `.sum()`)

In [350]:
df.duplicated().sum()

3623

Для категориальных (тип `object`) и булевых (тип `bool`) признаков можно воспользоваться методом `value_counts`. Посмотрим на распределение данных переменной — `Fuel_type`:

In [351]:
df['Fuel_type'].value_counts()

Fuel_type
Diesel            18810
Petrol            14475
Metan/Propan       4476
Hybrid             2179
Plug-in Hybrid      524
Electric            338
Name: count, dtype: int64

<!-- ## Упражнения -->
<!-- 1. Посчитайте число уникальных значений в категориальных колонках (`nunique()`) -->
<!-- 2. Посчитайте частоту встречи уникальных значений в колонке `Make`. Какой вывод можно сделать из этого если наша цель предсказывать цену популярных автомобилей?
3.  Проверьте статистику по годам в базе данных. Какой вывод можно сделать по наиболее старым автомобилям? -->

# Индексация

## Индекскация по колонкам

`DataFrame` можно индексировать по-разному. В связи с этим рассмотрим различные способы индексации и извлечения нужных нам данных из датафрейма на примере простых вопросов.





Для извлечения отдельного столбца можно использовать конструкцию вида `DataFrame['Name']`

In [352]:
df[['AutoTransmission','Price(euro)']].head(3)

Unnamed: 0,AutoTransmission,Price(euro)
0,True,7750.0
1,False,8550.0
2,False,2200.0


Тоже самое, но `Series`

In [353]:
df['AutoTransmission'].head(3)

0     True
1    False
2    False
Name: AutoTransmission, dtype: bool

Выбирем все колонки кроме цены - как входные данные и создадим целевой датафрейм с колонкой цена.


In [354]:
df_X = df[[x for x in df.columns if x not in ['Price(euro)']]].copy()
df_y = df[['Price(euro)']].copy()

In [355]:
df_X

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,True
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,False
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,False
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,False
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,False
...,...,...,...,...,...,...,...,...
41002,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,False
41003,Renault,Modus,2009,Hatchback,225.0,1500.0,Diesel,False
41004,Mercedes,E Class,2016,Sedan,50000.0,1950.0,Diesel,True
41005,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,False


## Индексация по слайсам и индексам

Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. Для индексации по названию используется метод `loc`, по номеру — `iloc`.

например `.loc[строки, столбцы]` 

Отметим, что функции `loc` и `iloc` представляют собой прямое обращение  к ячейки памятми `DataFrame` в отличии от обращения впрямую.

In [356]:
df.loc[:,'AutoTransmission']

0         True
1        False
2        False
3        False
4        False
         ...  
41002    False
41003    False
41004     True
41005    False
41006    False
Name: AutoTransmission, Length: 41007, dtype: bool

конкретное значение

In [357]:
df.loc[1437,'AutoTransmission']

True

слайс

In [358]:
df.loc[0:5,['AutoTransmission']]

Unnamed: 0,AutoTransmission
0,True
1,False
2,False
3,False
4,False
5,False


In [359]:
df.loc[0:10,['AutoTransmission','Year']].head(3)

Unnamed: 0,AutoTransmission,Year
0,True,2011
1,False,2014
2,False,1998


In [360]:
df.loc[:,'Make':'Style'].head(3)

Unnamed: 0,Make,Model,Year,Style
0,Toyota,Prius,2011,Hatchback
1,Renault,Grand Scenic,2014,Universal
2,Volkswagen,Golf,1998,Hatchback


строка

In [361]:
df.loc[69,:]

Make                        Honda
Model                        CR-V
Year                         2002
Style                   Universal
Distance                 275100.0
Engine_capacity(cm3)       2000.0
Fuel_type                  Petrol
AutoTransmission            False
Price(euro)                5900.0
Name: 69, dtype: object

In [362]:
df.loc[[69],:]

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
69,Honda,CR-V,2002,Universal,275100.0,2000.0,Petrol,False,5900.0


слайс строк

In [363]:
df.loc[322:1437,:].head(3)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
322,Volkswagen,Polo,2007,Hatchback,240000.0,1400.0,Diesel,False,3750.0
323,Audi,A6,2018,Sedan,0.0,1800.0,Petrol,True,25999.0
324,Hyundai,Santa FE,2015,Crossover,161000.0,2000.0,Diesel,True,18000.0


In [364]:
df.loc[227:229,'Make':'Fuel_type']

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type
227,Audi,Q5,2013,SUV,143000.0,2000.0,Petrol
228,Volkswagen,Caddy,2013,Universal,174000.0,2000.0,Diesel
229,Toyota,Prius,2011,Hatchback,121000.0,1800.0,Hybrid


`iloc` индексация

In [365]:
df.iloc[0:5, 0:3]

Unnamed: 0,Make,Model,Year
0,Toyota,Prius,2011
1,Renault,Grand Scenic,2014
2,Volkswagen,Golf,1998
3,Renault,Laguna,2012
4,Opel,Astra,2006


In [366]:
df.iloc[0:1]

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,True,7750.0


In [367]:
df.iloc[-1:]

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
41006,Renault,Grand Scenic,2006,Minivan,300000.0,1500.0,Diesel,False,4000.0


## Логическое Индексирование

Очень удобной является логическая индексация `DataFrame` по одному столбцу. Выглядит она следующим образом: `df[P(df['Name'])]`, где `P` — это некоторое логическое условие, проверяемое для каждого элемента столбца `Name`. Итогом такой индексации является `DataFrame`, состоящий только из строк, удовлетворяющих условию `P` по столбцу `Name`.

In [368]:
df[df['AutoTransmission']==False].head(3)


Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,False,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,False,2200.0
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,False,6550.0


Найдем автомобили до 1970 года

In [369]:
df[df['Year']<1970].head(3)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
3640,Moskvich / Izh,Altele,1964,Sedan,65000.0,100.0,Petrol,False,2500.0
4088,Zaz,Altele,1966,Sedan,37000.0,900.0,Petrol,False,2800.0
4187,Moskvich / Izh,Altele,1964,Sedan,45000.0,1200.0,Petrol,False,2300.0


Найдем пример очевидно протеворечивых данных

для этого можно использовать комбинации условий. Комбинации условий `&` - "и", `|` - "или", `~` - "не"

In [370]:
df[(df['Year']<1950)&(df['AutoTransmission']==True)].head(3)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
13394,Audi,100,1900,Sedan,0.0,1000.0,Petrol,True,1500.0
18214,Volvo,S80,1900,Coupe,1556666.0,1212.0,Petrol,True,10000.0
18380,Peugeot,206,1900,Sedan,1877.0,1400.0,Petrol,True,3000.0


Воспользуемся этим для ответа на вопрос: каково среднее значение цены на `Toyota Land Cruiser Prado` с автоматической коробкой передч `2012` года



In [371]:
df_selet = df[
    (df['AutoTransmission']==True)&\
    (df['Make']=='Toyota')&\
    (df['Year']==2012)&\
    (df['Model']=='Land Cruiser Prado')
]
df_selet['Price(euro)'].mean()

38354.27272727273

## Упражнения
<!-- 1. Выбирите `DataFrame` без пустых записей (`df.isna()` - для проверки пустых значений.)
   > *Подсказка*. Можно использовать метод `.dropna()` вместо условия. -->
1. Отфильтруйте часть `DataFrame` от записей очевидно противоречащами здравому смыслу, например:
    <!-- * пробег в год: пробег автомобиля (`Distance`) меньше `1000 км` и год автомобиля меньше `2021`.
      > *Подсказка*. Для этого можно использовать или комбинацию фильтров 
      > или воспользоваться переменной год автомобиля
      > ```python
      > df['Year'].max()+1 - df['Year']`.
      > ``` -->
    * объем двиготеля (`Engine_capacity(cm3)`) меньше `200 см3` или больше `5000 см3`
    * цена (`Price(euro)`) - выбирите сами
      > *Подсказка*. Можно использовать `df_selet[['Price(euro)']].describe()`
    * год авто с автоматической трансмиссией (аналогично примеру выше)
    * свой вариант?
<!-- 4. Выбирите часть `DataFrame` без пропусков и часть с пропусками -->
2. Выбирите часть `DataFrame` только с численными колонками      
3. Сделайте функцию которая по заданным параметрам `Make`, `Model`и `Year` выводит датафрейм с типами `AutoTransmission`

<details>
    
  <summary><i>Подсказка</i> к 1 задаче</summary><br>
    
```python
    df_selet = df.copy()
    
    df_selet =  df_selet[
        (df_selet['Engine_capacity(cm3)']>200)&\
        (df_selet['Engine_capacity(cm3)']<5000)
    ]
    
    df_selet =  df_selet[
        (df_selet['Price(euro)']<=0.9*df_selet['Price(euro)'].max())
    ]
    
    df_selet =  df_selet[
        (df_selet['Price(euro)']>df_selet['Price(euro)'].min())
    ]
    
    df_selet =  df_selet[
        ~((df_selet['Year']<1970)&\
          (df_selet['AutoTransmission']==True))
    ]
    
    df = df_selet.copy()
```

</detailed>

# Предобработка DataFrame

## Простые операции

### Удаление дубликатов

Методы `.drop_duplicates()` и `.reset_index()`

In [375]:
df = df.drop_duplicates()

df = df.reset_index(drop=True)

df.head(3)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro)
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,True,7750.0
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,False,8550.0
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,False,2200.0


Также удалим пропуски. Но отметим, что удаление пропусков в реальных задачах требует обоснования. Иногда пропуски лучше заполнить, чем удалить

In [376]:
df = df.dropna()
df = df.reset_index(drop=True)

__Предлагается__ в качестве упражнени на дом найти пропуски в данных и по возможности заполнить их ближайшими по смыслу условиями.

### Создание своих столбцев

Зная суть или модель данных, мы можем предположить, чего нам не хватает - то есть попробовать добавить новый признак в данные. Такую операцию можно провести по-разному. В данном случае мы сделаем это исходя из логики. Введем признак пробег в год (`km_year`).

In [377]:
df['Age'] = df.Year.max()+1 - df.Year

df['km_year'] = df.Distance/df.Age

Применение функции к каждой ячейке `map`

In [378]:
d = {True : 'Automatic', False : 'Manual'}
df['Transmission'] = df['AutoTransmission'].map(d)
df.head()

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro),Age,km_year,Transmission
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,True,7750.0,11,17727.272727,Automatic
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,False,8550.0,8,16875.0,Manual
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,False,2200.0,24,0.041667,Manual
3,Renault,Laguna,2012,Universal,110000.0,1500.0,Diesel,False,6550.0,10,11000.0,Manual
4,Opel,Astra,2006,Universal,200000.0,1600.0,Metan/Propan,False,4100.0,16,12500.0,Manual


Также давайте считать, что условный пробег в год может быть небольшим (например до 10 000 в год), средним (от 10 000 до 30 000) и большим (все что свыше). Создадим функцию которая бы реализовала эту функцию.

In [379]:
def km_year_category(km_year):
    if km_year <= 10_000:
        return 'Small'
    elif km_year > 10_000 and km_year <= 30_000:
        return 'Medium'
    else:
        return 'Large'

Создадим новый столбец и заполним его при помощи функции `apply`, которая применяет к заданному столбцу функцию, передаваяему в качестве аргумента.

In [380]:
df["km_year_cat"] = df["km_year"].apply(km_year_category)
df.head(3)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,AutoTransmission,Price(euro),Age,km_year,Transmission,km_year_cat
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,True,7750.0,11,17727.272727,Automatic,Medium
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,False,8550.0,8,16875.0,Manual,Medium
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,False,2200.0,24,0.041667,Manual,Small


### Удаление лишних столбцев

In [381]:
df = df.drop(columns = ['Age','AutoTransmission'])
df.head(3)

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Price(euro),km_year,Transmission,km_year_cat
0,Toyota,Prius,2011,Hatchback,195000.0,1800.0,Hybrid,7750.0,17727.272727,Automatic,Medium
1,Renault,Grand Scenic,2014,Universal,135000.0,1500.0,Diesel,8550.0,16875.0,Manual,Medium
2,Volkswagen,Golf,1998,Hatchback,1.0,1400.0,Petrol,2200.0,0.041667,Manual,Small


### Удаление при помощи фильтра по индексам

In [382]:
# здравый смысл
question_dist = df[(df.Year <2021) & (df.Distance < 1100)]
df = df.drop(question_dist.index)

# редкие значения
question_dist = df[(df.Distance > 1e6)]
df = df.drop(question_dist.index)

# здравый смысл
question_engine = df[df["Engine_capacity(cm3)"] < 200]
df = df.drop(question_engine.index)

# здравый смысл
question_engine = df[df["Engine_capacity(cm3)"] > 5000]
df = df.drop(question_engine.index)

# здравый смысл
question_price = df[(df["Price(euro)"] < 101)]
df = df.drop(question_price.index)

# здравый смысл
question_price = df[df["Price(euro)"] > 5e5]
df = df.drop(question_price.index)

# редкие значения
question_year = df[df.Year < 1951]
df = df.drop(question_year.index)

df = df.reset_index(drop=True)
df.tail()

Unnamed: 0,Make,Model,Year,Style,Distance,Engine_capacity(cm3),Fuel_type,Price(euro),km_year,Transmission,km_year_cat
31644,Volkswagen,Passat,2016,Sedan,88000.0,1800.0,Petrol,11500.0,14666.666667,Automatic,Medium
31645,Land Rover,Freelander,2002,Crossover,225000.0,1800.0,Metan/Propan,4400.0,11250.0,Manual,Medium
31646,Dacia,Logan Mcv,2015,Universal,89000.0,1500.0,Diesel,7000.0,12714.285714,Manual,Medium
31647,Mazda,6,2006,Combi,370000.0,2000.0,Diesel,4000.0,23125.0,Manual,Medium
31648,Renault,Grand Scenic,2006,Minivan,300000.0,1500.0,Diesel,4000.0,18750.0,Manual,Medium


Желательно при фильтрации проверять сколько осталось

In [383]:
df.shape

(31649, 11)

### Переименование столбцов

In [287]:
df = df.rename(columns={'Engine_capacity(cm3)':'Engine','Price(euro)':'Price'})

### Поиск редких значений в категориальных столбцах

Оказалось, что часть признаков в категориальных столбцах имеют слишком много записей. Вероятно, редкие из них можно исключить без потери точности. Мы сделаем эту операцию объявив такие записи одним значениям - `Rare`.

Выбирем значения колонки `Make`, где частота повторения данных менее `1%`

In [384]:
counts = df['Make'].value_counts()
counts

Make
Volkswagen      3341
Toyota          2998
Mercedes        2951
BMW             2499
Renault         2328
                ... 
Abarth             1
McLaren            1
Groz               1
Saturn             1
Aston Martin       1
Name: count, Length: 82, dtype: int64

In [295]:
counts = df.Make.value_counts()
freqs = counts/sum(counts)

Будем считать автомобили редкими, если их менее 1%.

In [385]:
rare=counts[freqs<=0.01]
rare

Make
Chevrolet       322
Citroen         295
Land Rover      283
Seat            238
Porsche         188
               ... 
Abarth            1
McLaren           1
Groz              1
Saturn            1
Aston Martin      1
Name: count, Length: 62, dtype: int64

Теперь в колонке `Make` проведем замену всех значений `Rare`

In [386]:
df['Make'] = df['Make'].replace(rare.index.values, 'Rare')
df.Make.value_counts()

Make
Volkswagen    3341
Toyota        2998
Mercedes      2951
Rare          2880
BMW           2499
Renault       2328
Opel          1815
Skoda         1691
Audi          1499
Dacia         1349
Ford          1305
Nissan        1232
Hyundai       1179
Honda          883
KIA            646
Mitsubishi     601
Lexus          583
Volvo          567
Vaz            491
Mazda          431
Peugeot        380
Name: count, dtype: int64

Обработанные `DataFrames` рекомендуется сохрнаять

In [387]:
df.to_csv('cars_processed.csv',index=False)

## Упражнения
1. Для новых столбцев `km_year_cat` и  `km_year` проведите анализ значений на здравый смысл, например уберите строки где пробег более `100_000` в год.
2. Сделайте функцию которая для заданных параметров `Make`, `Model`и `Year` предлагает самый частый тип `Style`. Рассмотрите возможность удалания данного столбца на основе анализа при помощи данной функции.
3. Сделайте функцию, которая для заданных параметров `Make`, `Model`и `Year` предлагает самый частый тип `Fuel_type`.
4. Проведите устранение редких значений колонки `Models`
<!-- 5. Проведите анализ пропущенных значений, рассмотрите возможность их заполнения аналогичными (максимально близкими по смыслу) значениями. Пропущенные значения можно найти например при помощи функции `df[df.Fuel_type.isna()]`. Если пропущенное значение не удется обоснованно заполнить предлагается его удалить
```python
df = df.drop(index=3) # удаление строки с заданным номером
```
или
```python
df = df.dropna() # удаление всех оставшихся NaN
``` -->
5. Сохраните 1 - оставшийся датафрейм и 2 - отдельно его часть только с численными колонками