# Объявления о продаже Toyota Auris (2013 - 2020 года выпуска). 

## Данные с сайта nettiauto.com на основе 2479 объявлений

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

#ignore warnings
import warnings
warnings.filterwarnings('ignore')

# library & dataset
import seaborn as sns

## 1. Просмотр датасета

In [2]:
df = pd.read_csv('auris_fi.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'auris_fi.csv'

In [None]:
df.head(3)

In [None]:
df.info()

## 2. Чистка датасета

In [None]:
# переименуем столбцы
df = df.rename(columns = {'Sold date': 'Sold_date'})
df = df.rename(columns = {'Make & model|Year|Mileage|Price|Sold date': 'model_description'})

# удалим пробелы
df['Mileage'] = df['Mileage'].str.replace(" ", "")
df['Price'] = df['Price'].str.replace(" ", "")

In [None]:
# удалим лишнее Vuosi
df = df.drop(df.query('Year == "Vuosi"').index.values.tolist())

# удалим данные где дата продажи 0
drop_nulls = df.query('Sold_date == "00-0000"').index.values.tolist()
df = df.drop(drop_nulls)

In [None]:
# приведем к формату времени
df['Year'] = pd.to_datetime(df['Year'], format='%Y')
# приведем к формату времени
df['Sold_date'] = pd.to_datetime(df['Sold_date'], format='%m-%Y')

In [None]:
# удалим данные где мили Eiilmoitettu
drop_next = df[df['Mileage'] == 'Eiilmoitettu'].index.values.tolist()
for i in drop_next:
    df = df.drop(index = i)

In [None]:
# удалим данные где мили Eihin
drop_a = df[df['Price'] == 'Eihin'].index.values.tolist()
drop_a

In [None]:
df = df.drop(index = 1977)
df = df.drop(index = 2076)

In [None]:
# мили целочисленные значения
df['Mileage'] = df['Mileage'].astype('float64') 

In [None]:
# цена 5 знаков
df['Price'] = df['Price'].str[:5]
# удалим пробелы
df['Price'] = df['Price'].str.replace("€", "")
# сделаем цену целочисленным значением
df['Price'] = df['Price'].astype(int) 

In [None]:
df.info()

In [None]:
df.head(3)

In [None]:
df.info()

In [None]:
df['Age'] = (df['Sold_date'] - df['Year']) / np.timedelta64(1, 'Y')
df.head(3)

In [None]:
df.describe()

In [None]:
# дропнем аномалию
max = df['Mileage'].max()
drop_max = df.query('Mileage == 1310000').index.values.tolist()
df = df.drop(drop_max)
df.head(3)

In [None]:
# сделаем градацию по пробегу 

def mileage(col):
    if col < 20000:
        return "< 20000"
    elif 20000 <= col < 50000 :
        return "20000 - 49999"
    elif 50000 <= col < 79999 :
        return "50000 - 79999"
    elif 80000 <= col < 100000 :
        return "80000 - 99999"
    else:
        return ">= 100000"

# произведем замену значений в DF
df['mileage_range'] = df['Mileage'].apply(mileage)

In [None]:
# сделаем градацию по пробегу 

def ages_range(col):
    if col < 3:
        return "< 3"
    elif 3 <= col < 5 :
        return "3 - 4"
    elif 5 <= col < 8 :
        return "5 - 7"
    else:
        return ">= 8"

# произведем замену значений в DF
df['age_range'] = df['Age'].apply(ages_range)

## 3. Графики 

In [None]:
# Use the 'hue' argument to provide a factor variable
sns.lmplot( x="Mileage", 
           y="Price", 
           data=df, 
           fit_reg=False, 
           hue='mileage_range', 
           legend=True, 
           height=6, 
           aspect=11.7/8.27);
ax = plt.gca();
ax.set_title("Распределение Цена - Пробег. Градация цветов по пробегу.");

In [None]:
fig, ax = plt.subplots(figsize=(15,6))
sns.distplot( df['Mileage'], 
             hist=True, 
             kde=False, 
             rug=False, 
             color="red" ).set_title('Количество проданных автомобилей и их пробег');
plt.xlabel("Mileage");

In [None]:
fig, ax = plt.subplots(figsize=(15,6))
ax.set_title("Распределение Год - Цена");
# use the function regplot to make a scatterplot
sns.regplot(x=df["Age"], y=df["Price"]);

## 4. Выборка из того, что интересно для покупки

In [None]:
int = df[(df['mileage_range'] == '< 20000')|(df['mileage_range'] == '20001 - 50000')]
int.head(3)

In [None]:
fig, ax = plt.subplots(figsize=(15,6))
sns.boxplot( x=int["mileage_range"], y=int["Price"] );

In [None]:
new = df[df['mileage_range'] == '< 20000']
semi_new = df[df['mileage_range'] == '20001 - 50000']

In [None]:
new_price = new['Price'].median()
new_age = new['Age'].median()
print('медианная цена Auris с пробегом до 20 000 км = {:.2f}, возраст автомобиля = {:.3f}'.format(new_price,new_age))

In [None]:
seminew_price = semi_new['Price'].median()
seminew_age = semi_new['Age'].median()
print('медианная цена Auris с пробегом от 20 001 км до 50000 км = {:.2f}, возраст автомобиля = {:.3f}'.format(seminew_price,seminew_age))

In [None]:
fig, ax = plt.subplots(figsize=(15,6))
sns.boxplot( x=int["mileage_range"], y=int["Age"] );

In [None]:
start_range = semi_new['Price'].quantile(0.25) # 25%
end_range = semi_new['Price'].quantile(0.5) # 50%

In [None]:
print('выгодная цена для toyota auris c пробегом от 20001 км до 50000 км = {:.2f} - {:.32}'.format(start_range,end_range))

### Выводы

- медианная цена Auris с пробегом до 20 000 км = 22450.00, возраст автомобиля = 3.581

- медианная цена Auris с пробегом от 20 001 км до 50000 км = 20990.00, возраст автомобиля = 3.581

- выгодная цена для Toyota Auris c пробегом [от 0 км до 50000 км] = 18900.00 - 20990.0. Вероятнее всего возраст автомобиля будет 3.5 года.