# Разведочный анализ данных: Data Cleaning. Практическая работа

## Цели практической работы
* Потренироваться выявлять и заполнять пропущенные значения в данных.
* Потренироваться преобразовывать типы данных.
* Потренироваться выявлять и обрабатывать аномальные значения в данных.
* Подготовить датафрейм к этапу генерации признаков.



## Задача

В этой практической работе вы продолжите исследовать и готовить данные для этапа моделирования: заполнять пропущенные значения в некоторых переменных, изменять типы данных и обрабатывать выбросы.

Напомним, что вы работаете с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.

## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета на наличие пропусков.
3. Обработать пропуски в зависимости от типа переменной.
4. Изменить типы данных.
5. Исследовать данные на аномальные значения и скорректировать выбросы.

## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.
- Репозиторий проекта содержит осмысленные коммиты с конкретными реализованными фичами, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них видеоматериалов.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.




## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему куратору.

## Обязательные задачи

In [1]:
# Импортируйте необходимые библиотеки
import pandas as pd
import numpy as np

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Задача 1. Загрузка датасета и ознакомление с количеством пропущенных значений

1. Загрузите датасет из `data/df_out.csv` и выведите первые пять записей.



In [3]:
# Ваш код здесь
df = pd.read_csv("/content/drive/MyDrive/SkillBox/data/df_clean.csv")
df.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,title_status,transmission,image_url,description,state,lat,long,posting_date,price_category
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020.0,ram,2500 crew cab big horn,diesel,27442.0,clean,other,https://images.craigslist.org/00N0N_1xMPvfxRAI...,Carvana is the safer way to buy a car During t...,tn,35.06,-85.25,2021-04-17T12:30:50-0400,high
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016.0,ford,explorer 4wd 4dr xlt,,60023.0,clean,automatic,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017.0,volkswagen,golf r hatchback,gas,14048.0,clean,other,https://images.craigslist.org/00y0y_eeZjWeiSfb...,Carvana is the safer way to buy a car During t...,ca,33.779214,-84.411811,2021-04-28T03:52:20-0700,high
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013.0,toyota,rav4,gas,117291.0,clean,automatic,https://images.craigslist.org/00606_iGe5iXidib...,2013 Toyota RAV4 XLE 4dr SUV Offered by: R...,nc,35.715954,-78.655304,2021-04-17T10:08:57-0400,medium
4,7316474668,https://newyork.craigslist.org/lgi/cto/d/baldw...,new york city,https://newyork.craigslist.org,21800,2021.0,nissan,altima,gas,8000.0,clean,automatic,https://images.craigslist.org/00V0V_3pSOiPZ3Sd...,2021 Nissan Altima Sv with Only 8 K Miles Titl...,ny,40.6548,-73.6097,2021-05-03T18:32:06-0400,medium


2. Выведите информацию о датафрейме и обратите внимание на оставшиеся незаполненные значения.


In [4]:
# Ваш код здесь
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 19 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              10000 non-null  int64  
 1   url             10000 non-null  object 
 2   region          10000 non-null  object 
 3   region_url      10000 non-null  object 
 4   price           10000 non-null  int64  
 5   year            9964 non-null   float64
 6   manufacturer    10000 non-null  object 
 7   model           9872 non-null   object 
 8   fuel            9937 non-null   object 
 9   odometer        10000 non-null  float64
 10  title_status    9834 non-null   object 
 11  transmission    9955 non-null   object 
 12  image_url       9998 non-null   object 
 13  description     9998 non-null   object 
 14  state           10000 non-null  object 
 15  lat             9902 non-null   float64
 16  long            9902 non-null   float64
 17  posting_date    9998 non-null   

3. Выведите количество полностью заполненных объектов и их процент из всей выборки. Воспользуйтесь материалами из видео.


In [5]:
# Ваш код здесь
# Ваш код здесь
def print_useful_rows_info(df):
   print('Количество полностью заполненных объектов из всей выборки: ', len(df.dropna()))
   print('Процент полностью заполненных объектов из всей выборки: ', round(len(df.dropna()) / len(df) * 100, 2))

In [6]:
useful_rows_info = print_useful_rows_info(df)
useful_rows_info

Количество полностью заполненных объектов из всей выборки:  9507
Процент полностью заполненных объектов из всей выборки:  95.07


4. Сохраните в переменную и выведите процент пропущенных значений для каждого признака, отсортируйте признаки по убыванию процента пропущенных значений. Воспользуйтесь материалами из видео и не забудьте передать верный параметр сортировки.


In [7]:
from io import StringIO

def info_2_df(data, feature_dtype = False, show_complete_feature = True):
    '''
    функция захватывает сводную информацию,
    возвращаемую методом info()
    в pandas о датафрейме и считает количество пропусков,
    а также их процентную долю
    '''

    # Сохранение вывода метода info() в переменную data_info
    info_str = StringIO()
    data.info(buf=info_str)
    data_info = info_str.getvalue()

    # вынимаем названия признаков
    name_columns= data_info.split('\n')[3].split()
    if len(name_columns) > 3:
        name_columns = name_columns[1:]


    #вынимаем количество объектов в датасете
    range_index = int(data_info.split('\n')[1].split()[1])

    # Преобразование строк табличного блока в список строк
    if len(data_info.split('\n')) > 8:
        string_list = data_info.split('\n')[5:-3]
    else:
        string_list = data_info.split('\n')[5]
    #print(string_list)

    # Преобразование списка строк в список списков значений
    data_list = [line.split()[1:] for line in string_list][1:]

    # Создание датафрейма data_info
    data_info = pd.DataFrame(data_list, columns= name_columns)#['Feature','Numb_Non_Null','Count','Dtype'])


    data_info.drop('Count', axis=1 ,inplace = True)

    # условие для вывода типа признаков
    if not feature_dtype: data_info.drop('Dtype', axis=1 ,inplace = True)

    data_info['Non-Null'] = data_info['Non-Null'].astype(int)


    # создаём колонку с числом пропусков по каждому признаку
    data_info['Null'] = range_index - data_info['Non-Null']

    # создаём колонку с процентом пропусков по каждому признаку
    data_info['Percent_Null'] = round(100*data_info['Non-Null']/range_index,1)

    # сортируем по числу пропусков в порядке убывания
    data_info = data_info.sort_values(by='Non-Null', ascending=False)

    # Удаление строк, где значения в столбце 'Numb_Null' равны нулю
    if not show_complete_feature: data_info.drop(data_info[data_info['Null'] == 0].index, inplace=True)

    return data_info

In [8]:
# в таблице представлены процент пропущенных значений для каждого признака,
# признаки отсортированы по убыванию числа пропущенных значений
info_2_df(df, show_complete_feature = True)

Unnamed: 0,Column,Non-Null,Null,Percent_Null
0,url,10000,0,100.0
5,manufacturer,10000,0,100.0
13,state,10000,0,100.0
1,region,10000,0,100.0
8,odometer,10000,0,100.0
17,price_category,10000,0,100.0
3,price,10000,0,100.0
2,region_url,10000,0,100.0
11,image_url,9998,2,100.0
12,description,9998,2,100.0


5. Выведите список всех признаков, в которых имеются пропущенные значения. Воспользуйтесь результатом вывода предыдущего задания, чтобы отсортировать признаки, подходящие под условие.

In [9]:
# в колонке Percent_Null представлены процент пропущенных значений для каждого признака,
# в котором есть пропуски
# признаки отсортированы по убыванию числа пропущенных значений
info_2_df(df, show_complete_feature = False)

Unnamed: 0,Column,Non-Null,Null,Percent_Null
11,image_url,9998,2,100.0
12,description,9998,2,100.0
16,posting_date,9998,2,100.0
4,year,9964,36,99.6
10,transmission,9955,45,99.6
7,fuel,9937,63,99.4
14,lat,9902,98,99.0
15,long,9902,98,99.0
6,model,9872,128,98.7
9,title_status,9834,166,98.3


### Задача 2. Обработка пропусков в годе выпуска автомобиля

1. Выведите количество значений для года выпуска автомобиля, включая пропущенные значения.


In [10]:
# Ваш код здесь
df['year'].notna().value_counts(dropna=False)

True     9964
False      36
Name: year, dtype: int64

2. Выведите количество пропущенных значений в годе выпуска автомобиля.



In [11]:
# число пропусков в годе выпуска
df['year'].isna().sum()

36

3. Выведите описательные статистики для года выпуска автомобиля.


In [12]:
# Ваш код здесь
df['year'].describe()

count    9964.000000
mean     2010.927941
std         9.672040
min      1915.000000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64

4. Выведите записи, в которых год выпуска автомобиля не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


Чтобы заполнить пропуски в годе выпуска авто вынем данные о годе выпуска из поля url

In [13]:
# Ваш код здесь
# создадим вспомогательную колонку - model_from_url
df['model_from_url'] = df['url'].apply(lambda x: ' '.join(x.split('/')[-2].split('-')[1:]))
#data['model_from_url'] = data['url'].apply(lambda x: x.split('/')[-2].split('-')[1:])
df['model_from_url']

0               2020 ram 2500 crew cab big
1                       2016 ford explorer
2                  2017 vw volkswagen golf
3             2013 toyota rav4 xle 4dr suv
4          2021 nissan altima sv with only
                       ...                
9995                       2002 toyota rav
9996                    2008 jeep wrangler
9997    2011 audi a3 20t premium plus pzev
9998        2015 porsche cayenne awd 4dr e
9999            2017 ram 1500 crew cab big
Name: model_from_url, Length: 10000, dtype: object

С помощью регулярных выражений вынем из нового поля 4-x значные числа, лежащие в диапазоне от 1900 до 2023 года

In [14]:
import re

# создадим новую колонку year_from_url
df['year_from_url'] = df['model_from_url'].apply(lambda x: re.findall(r'\d{4}', x) )

# удалим все значения из года выпуска авто, лежащие вне диапазона от 1900 до 2023 года
df['year_from_url'] = df['year_from_url'].apply(lambda x: x[0] if x != [] and (int(x[0]) > 1900 and int(x[0]) < 2023 ) else np.nan)

# частота встречаемости годов выпуска
df['year_from_url'].value_counts(dropna = False)

NaN     969
2018    783
2017    774
2016    684
2015    633
       ... 
1953      1
1958      1
1937      1
1954      1
2022      1
Name: year_from_url, Length: 90, dtype: int64

В поле `year_from_url` 969 пропусков

In [15]:
# уникальные непустые значения поля year_from_url
# df[df['year_from_url'].notna()]['year_from_url'].unique()
# years_list = df[df['year_from_url'].notna()]['year_from_url'].unique()

In [16]:
# заменим пропуски в годе выпуска данными из новой колонки year_from_url
df['year'] = df['year'].combine_first(df['year_from_url'])

In [17]:
# один год не удалось восстановить
df[df['year'].isna()]

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,transmission,image_url,description,state,lat,long,posting_date,price_category,model_from_url,year_from_url
2629,7314588156,https://inlandempire.craigslist.org/ctd/d/hesp...,inland empire,https://inlandempire.craigslist.org,2599,,other,olet Impala,other,1.0,...,other,https://images.craigslist.org/00P0P_dKsEWbujM0...,Chevrolet Impala * AUCTION PRICES TO THE PUBL...,ca,34.45193,-117.28706,2021-04-29T16:19:54-0700,low,chevrolet impala sunday public,


In [20]:
df.dtypes

id                  int64
url                object
region             object
region_url         object
price               int64
year               object
manufacturer       object
model              object
fuel               object
odometer          float64
title_status       object
transmission       object
image_url          object
description        object
state              object
lat               float64
long              float64
posting_date       object
price_category     object
model_from_url     object
year_from_url      object
dtype: object

In [21]:
# преобразуем тип признака год
df['year'] = df['year'].apply(lambda x: float(x) if x else x)

In [26]:
# удалим вспомогательную колонку year_from_url
# df.drop(['year_from_url'], axis = 1, inplace=True)

In [22]:
# в таблице представлены процент пропущенных значений для каждого признака,
# в котором есть пропуски
# признаки отсортированы по убыванию числа пропущенных значений
info_2_df(df, show_complete_feature = False)

Unnamed: 0,Column,Non-Null,Null,Percent_Null
4,year,9999,1,100.0
16,posting_date,9998,2,100.0
11,image_url,9998,2,100.0
12,description,9998,2,100.0
10,transmission,9955,45,99.6
7,fuel,9937,63,99.4
14,lat,9902,98,99.0
15,long,9902,98,99.0
6,model,9872,128,98.7
9,title_status,9834,166,98.3


5. Обработайте пропуски, удалив записи, в которых год выпуска автомобиля не заполнен, и сохраните обновлённый датафрейм, а затем выведите его размерность.


In [23]:
df['year'].notna().value_counts(dropna = False)

True     9999
False       1
Name: year, dtype: int64

In [24]:
# удаляем записи, в которых год выпуска автомобиля не заполнен
df.dropna(subset=['year'],axis = 0, inplace=True)

6. Выведите количество пропущенных значений в годе выпуска автомобиля для обновлённого датафрейма.

In [25]:
df['year'].notna().value_counts(dropna = False)

True    9999
Name: year, dtype: int64

In [26]:
print("Количество пропущенных значений в year:", df['year'].isna().sum()) # Допишите код

Количество пропущенных значений в year: 0


### Задача 3. Обработка пропусков в типе топлива

1. Выведите количество значений для типа топлива, включая пропущенные значения. Обратите внимание на количество пропущенных значений.




In [27]:
# Ваш код здесь
df['fuel'].value_counts(dropna = False)

gas         8402
other        729
diesel       653
hybrid       108
NaN           63
electric      44
Name: fuel, dtype: int64

In [28]:
# в каких годах выпуска у авто есть пропуски в поле топливо
df[df['fuel'].isna()]['year'].value_counts(dropna=False)

2019.0    11
2016.0     6
2012.0     6
2014.0     4
2013.0     4
2010.0     4
2017.0     4
2018.0     4
2008.0     3
2011.0     3
2015.0     2
2020.0     2
2006.0     2
2001.0     2
2005.0     1
1971.0     1
2007.0     1
2000.0     1
2003.0     1
2009.0     1
Name: year, dtype: int64

In [29]:
# производители авто и пропуски в поле топливо по годам
df[df['fuel'].isna()][['manufacturer','year']].value_counts(dropna = False, sort = False)

manufacturer  year  
acura         2008.0    1
alfa-romeo    2018.0    1
cadillac      2012.0    1
chevrolet     2000.0    1
              2006.0    1
              2012.0    1
              2014.0    1
              2019.0    1
chrysler      2014.0    1
dodge         2015.0    1
              2017.0    2
ford          2009.0    1
              2010.0    2
              2013.0    1
              2016.0    4
              2017.0    1
              2018.0    1
gmc           2007.0    1
              2011.0    1
              2014.0    1
honda         2001.0    1
              2008.0    1
              2012.0    1
              2013.0    2
              2015.0    1
              2019.0    1
hyundai       2013.0    1
              2019.0    1
infiniti      2005.0    1
jeep          2012.0    2
              2014.0    1
              2016.0    1
mitsubishi    2018.0    1
nissan        2003.0    1
              2019.0    2
              2020.0    1
other         1971.0    1
              200

In [30]:
# таблица на каком топливе работали авто в разные годы
df[['year', 'fuel']].value_counts(dropna = False, sort = False)

year    fuel  
1915.0  gas        1
1923.0  gas        1
1927.0  gas        1
1928.0  gas        2
1929.0  gas        3
                  ..
2021.0  gas       45
        hybrid     1
        other      2
2022.0  gas        2
        other      1
Length: 198, dtype: int64

Итак, все пропуски кроме одного (1971 года) лежат в диапазоне от 2000 и выше. Поскольку до 1972 году практически все машины ездили на бензине (см. график), и три - видимо на дровах, то считаю, что пропуск можно заполнить бензином. ПожароОпасный каламбур))

2. Выведите описательные статистики для типа топлива.


In [31]:
# Ваш код здесь
df['fuel'].describe()

count     9936
unique       5
top        gas
freq      8402
Name: fuel, dtype: object

3. Выведите записи, в которых тип топлива не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [33]:
# Ваш код здесь
df[df['fuel'].isna()]

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,transmission,image_url,description,state,lat,long,posting_date,price_category,model_from_url,year_from_url
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016.0,ford,explorer 4wd 4dr xlt,,60023.0,...,automatic,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium,2016 ford explorer,2016
32,7309910590,https://eugene.craigslist.org/ctd/d/eugene-200...,eugene,https://eugene.craigslist.org,4977,2001.0,toyota,camry solara 2dr cpe se v6 auto (natl),,193242.0,...,automatic,https://images.craigslist.org/00F0F_ebtJlxCQjv...,***Call Us for more information at: 541-228-94...,or,44.076513,-123.150156,2021-04-20T10:40:15-0700,low,2001 toyota camry solara,2001
78,7314559074,https://eugene.craigslist.org/ctd/d/eugene-200...,eugene,https://eugene.craigslist.org,27977,2009.0,ford,"f-150 4wd supercrew 145"" platinum",,79522.0,...,automatic,https://images.craigslist.org/00L0L_khoMmqXaSJ...,***Call Us for more information at: 541-228-94...,or,44.076513,-123.150156,2021-04-29T15:15:30-0700,high,2009 ford 150,2009
275,7315141987,https://honolulu.craigslist.org/oah/ctd/d/fort...,hawaii,https://honolulu.craigslist.org,29888,2019.0,nissan,frontier crew cab 4x2 sv auto,,10679.0,...,automatic,https://images.craigslist.org/00F0F_d9wEXQuSyu...,***Call Us for more information at: 877-262-34...,hi,21.344376,-157.896975,2021-04-30T15:50:19-1000,high,shafter 2019 nissan frontier,2019
425,7315662117,https://westslope.craigslist.org/ctd/d/denver-...,western slope,https://westslope.craigslist.org,43900,2019.0,other,Grand Caravan,,21.0,...,automatic,https://images.craigslist.org/00f0f_7AwipNocNH...,"2019 *Dodge* *Grand Caravan* SE - $43,900Call ...",co,39.674406,-104.998604,2021-05-02T01:11:33-0600,high,2019 dodge grand caravan se gray,2019
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9388,7208549803,https://bellingham.craigslist.org/ctd/d/bellin...,bellingham,https://bellingham.craigslist.org,11999,2011.0,other,,,95674.0,...,,,,wa,,,,medium,2011 mercedes benz class 300,2011
9446,7309365699,https://fortmyers.craigslist.org/chl/ctd/d/bra...,ft myers / SW florida,https://fortmyers.craigslist.org,14997,2010.0,ford,e-350,,153120.0,...,manual,https://images.craigslist.org/00606_hQvq6K6D4p...,"2010 *Ford* *E-350* 12 Passenger Van - $14,997...",fl,27.479823,-82.571497,2021-04-19T14:01:14-0400,medium,2010 ford passenger van,2010
9636,7313475467,https://eugene.craigslist.org/ctd/d/eugene-201...,eugene,https://eugene.craigslist.org,9979,2012.0,chevrolet,equinox awd 4dr lt w/1lt,,165554.0,...,automatic,https://images.craigslist.org/00q0q_haS6HKqYq4...,***Call Us for more information at: 541-228-94...,or,44.076513,-123.150156,2021-04-27T12:10:24-0700,medium,2012 chevrolet equinox,2012
9805,7313949726,https://harrisburg.craigslist.org/ctd/d/brockp...,harrisburg,https://harrisburg.craigslist.org,8900,2012.0,honda,accord,,95674.0,...,,https://images.craigslist.org/01212_dsfYRNhxfd...,Car Starz Call Sales at 717-401-4221 2012 Hond...,pa,41.261540,-78.704520,2021-04-28T14:25:32-0400,low,2012 honda accord lx sedan at,2012


4. Обработайте пропуски, заполнив незаполненные значения типа топлива значением `other`, и сохраните изменения. Обратите внимание, что мы заполняем пропуски не самым популярным значением в выборке.


#### С вашего позволения не стану заменять пропуски значением `other`, а предложу несколько изощрённый метод, но думаю он Вам понравиться

#### Восстановление пропусков методом кумулятивной вероятности  по годам

In [34]:
# Ваш код здесь
df['fuel'].isna().value_counts()

False    9936
True       63
Name: fuel, dtype: int64

5. Выведите для обновлённого датафрейма количество пропущенных значений для типа топлива.

In [35]:
print("Количество пропущенных значений в fuel:", len(df['fuel'].isna()))  # Допишите код

Количество пропущенных значений в fuel: 9999


In [36]:
# создадим сводную таблицу где годам выпуска соответствует число машины, работающих на каждом виде топлива
pivot_tabl_year_fuel = pd.pivot_table(df, index='year', columns='fuel', values='manufacturer', aggfunc='count', fill_value=0)

# Создание новой таблицы с накопленными данными по видам топлива
new_pivot_tabl_year_fuel = pivot_tabl_year_fuel.copy()

# Накопленная сумма для каждого столбца
for column in pivot_tabl_year_fuel.columns:
    new_pivot_tabl_year_fuel[column] = pivot_tabl_year_fuel[column].cumsum()

def sum_row(row):
    return row['diesel'] + row['electric'] + row['gas']  + row['hybrid']  + row['other']

# создаю колонку суммы
new_pivot_tabl_year_fuel['total'] = new_pivot_tabl_year_fuel.apply(sum_row, axis=1)

# создаю датафрейм с вероятностями того или иного топлива для автомобиля каждого производителя
new_pivot_tabl_year_fuel_probab = new_pivot_tabl_year_fuel.copy()#pd.DataFrame(data__manufacturer_fuel_after_2000)

# расчитываю вероятности путём деления всех числовых значений на значения в total
new_pivot_tabl_year_fuel_probab = new_pivot_tabl_year_fuel_probab.apply(lambda row: round(row / float(row['total']),2), axis=1)
new_pivot_tabl_year_fuel_probab = new_pivot_tabl_year_fuel_probab.drop('total', axis=1)

# скопировали таблицу в CSV-формате
data_new_pivot_tabl_year_fuel_probab = new_pivot_tabl_year_fuel_probab.to_csv()

data_probab1 = data_new_pivot_tabl_year_fuel_probab.split('\n')# [1].split()[1])
data_probab1 = [line.split(',') for line in data_probab1]

# словарь с годами и дискретными распределениями вероятностей
year_fuel_probab_dct = { line[0]: [float(x) for x in line[1:]] for line in data_probab1[1:]}
year_fuel_probab_dct

{'1915.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1923.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1927.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1928.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1929.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1930.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1931.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1932.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1934.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1935.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1937.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1938.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1940.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1941.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1946.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1947.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1948.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1950.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1951.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1952.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1953.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1954.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1955.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1956.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1957.0': [0.0, 0.0, 1.0, 0.0, 0.0],
 '1958.0': [0.0, 0.0, 0.98, 0.0, 0.02],
 '1959.0':

In [37]:
import random

def get_year_fuel_probab(year):
    """
    функция по году выпуска автомобиля на основании
    соответствующего дискретного распределения вероятностей используемого топлива
    вычисляет на каком топливе работает его авто
    """

    random_var = ['diesel','electric','gas','hybrid','other'] # задаем значения случайной величины
    # на случай если год отсутствует в словаре, тогда откатимся назад до первого, который присутствует
    while str(year) not in year_fuel_probab_dct:
        year -= 1
    probability = year_fuel_probab_dct[str(year)] # задаем вероятности
    return random.choices(random_var, weights=probability)[0]  # генерируем случайную величину

# проверяем работоспособность функции
get_year_fuel_probab(1945.0)

'gas'

In [40]:
# Создаём новую колонку в датафрейме применяем нашу функцию
df['fuel_cumulative'] = df['year'].apply(get_year_fuel_probab)

#### Качество метода кумулятивной вероятности

Посчитаем качество метода восстановления пропусков путем деления числа неправильно предсказанных  к общему числу

In [41]:
# выделяем подфрейм с заполненными значениями типа топлива и
df_cumul = df[df['fuel'].notna()].copy()

# считаем его размер (длину, ширину)
df_cumul.shape

# доля неправильно предсказанных
100* len(df_cumul[df_cumul['fuel'] != df_cumul['fuel_cumulative']])/df_cumul.shape[0]

23.450080515297905

Т.е. почти 77% правильно предсказанных пропусков. Неплохо...

In [42]:
# заменим пропуски в топливе автомобиля данными из новой колонки
df['fuel'] = df['fuel'].combine_first(df['fuel_cumulative'])

In [43]:
# в таблице представлены процент пропущенных значений для каждого признака,
# в котором есть пропуски
# признаки отсортированы по убыванию числа пропущенных значений
info_2_df(df, show_complete_feature = False)

Unnamed: 0,Column,Non-Null,Null,Percent_Null
11,image_url,9997,2,100.0
12,description,9997,2,100.0
16,posting_date,9997,2,100.0
10,transmission,9954,45,99.5
14,lat,9901,98,99.0
15,long,9901,98,99.0
6,model,9871,128,98.7
9,title_status,9833,166,98.3
19,year_from_url,9031,968,90.3


### Задача 4. Обработка пропусков в модели автомобиля

1. Выведите количество значений для модели автомобиля, включая пропущенные значения. Обратите внимание на количество пропущенных значений.



In [44]:
df['model'].value_counts(dropna = False)

f-150                        151
NaN                          128
silverado 1500               110
1500                         100
camry                         77
                            ... 
Nascar                         1
titan le                       1
sorrento lx v6                 1
sierra1500 crewcab 4x4         1
a3 2.0t premium plus pzev      1
Name: model, Length: 3466, dtype: int64

2. Выведите описательные статистики для модели автомобиля.


In [45]:
# Ваш код здесь
df['model'].describe()

count      9871
unique     3465
top       f-150
freq        151
Name: model, dtype: object

3. Выведите записи, в которых модель автомобиля не заполнена. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [46]:
# Ваш код здесь
df[df['model'].isna()]

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,image_url,description,state,lat,long,posting_date,price_category,model_from_url,year_from_url,fuel_cumulative
67,7316913641,https://ventura.craigslist.org/cto/d/camarillo...,ventura county,https://ventura.craigslist.org,3000,2005.0,rover,,gas,165206.0,...,https://images.craigslist.org/00S0S_b3yx6L4N2S...,2005 Range Rover HSE Changed Oil and now engi...,ca,34.219565,-119.001986,2021-05-04T13:11:15-0700,low,2005 range rover needs work,2005,gas
142,7316550853,https://chicago.craigslist.org/chc/cto/d/midlo...,chicago,https://chicago.craigslist.org,3000,2006.0,jeep,,gas,132000.0,...,https://images.craigslist.org/01111_kNv3EKjH4H...,SUPER CLEAN 2006 JEEP LIBEERY RANAGADE 4X4 O...,il,41.618957,-87.726334,2021-05-03T20:33:40-0500,low,2006 jeep liberty 4x4 only,2006,gas
151,7303575863,https://worcester.craigslist.org/ctd/d/fitchbu...,worcester / central MA,https://worcester.craigslist.org,7800,2007.0,gmc,,gas,190000.0,...,https://images.craigslist.org/00f0f_iWjiToqea2...,2007 gmc with plow leather loaded nice truck r...,ma,42.579600,-71.803100,2021-04-08T09:10:07-0400,low,2007 gmc with plow,2007,gas
200,7315267860,https://gainesville.craigslist.org/ctd/d/kissi...,gainesville,https://gainesville.craigslist.org,19200,2012.0,ram,,gas,121371.0,...,https://images.craigslist.org/00W0W_hHV4D0Po0G...,2012 RAM 1500 Laramie Crew Cab 2WD Offered...,fl,28.329026,-81.404237,2021-05-01T10:05:17-0400,medium,2012 ram 1500 laramie crew,2012,gas
251,7316024407,https://reading.craigslist.org/ctd/d/paterson-...,reading,https://reading.craigslist.org,18695,2007.0,ram,,diesel,220019.0,...,https://images.craigslist.org/00n0n_jgq4eOvH7I...,2007 Dodge Ram 2500 SLT 4x4 Quad Cab Cummins D...,pa,40.894535,-74.152367,2021-05-02T21:06:09-0400,medium,2007 dodge ram 2500 slt 4x4,2007,gas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9564,7314341390,https://desmoines.craigslist.org/cto/d/urbanda...,des moines,https://desmoines.craigslist.org,8000,2007.0,toyota,,gas,85285.0,...,https://images.craigslist.org/00K0K_aMoJgOIueB...,Toyota has been owned by non smoker with no pe...,ia,41.629500,-93.723000,2021-04-29T10:50:54-0500,low,2007 prius,2007,gas
9616,7304358131,https://vermont.craigslist.org/ctd/d/salem-201...,vermont,https://vermont.craigslist.org,19944,2012.0,ram,,gas,73082.0,...,https://images.craigslist.org/00A0A_bfCaGJ20IX...,2012 RAM 1500 4WD REGULAR CAB SHORT BED 5.7 HE...,vt,42.788204,-71.233728,2021-04-09T16:24:23-0400,medium,2012 ram wd regular cab short bed,2012,gas
9670,7309686008,https://louisville.craigslist.org/cto/d/radcli...,louisville,https://louisville.craigslist.org,1600,2005.0,gmc,,gas,52536.0,...,https://images.craigslist.org/01111_99unV6cYER...,GMC Savana PRO AWD cargo van has been driven l...,ky,37.858900,-86.006900,2021-04-20T04:48:30-0400,low,gmc savana express 4wd 4x,,gas
9926,7316447901,https://tulsa.craigslist.org/cto/d/tulsa-2017-...,tulsa,https://tulsa.craigslist.org,65000,2017.0,rover,,gas,47000.0,...,https://images.craigslist.org/00s0s_iGpmplDL99...,"2017 Range Rover HSE, supercharged V8, silver ...",ok,36.126200,-95.940800,2021-05-03T16:37:36-0500,high,2017 range rover hse,2017,gas


4. Если подробнее изучить значения описания автомобиля, то, возможно, модель автомобиля получится восстановить из описания. Сейчас обработайте пропуски, заполнив незаполненные значения модели автомобиля значением `other`, и сохраните изменения. Обратите внимание, что мы в очередной раз заполняем пропуски не самым популярным значением в выборке.

#### Сначала восстановлю большинство пропусков в модели машинки из поля url


In [47]:
# восстановил модель машинки из поля url
# подкорректируем колонку model_from_url, для тех строк где год из url - легитимный
df.loc[df['year_from_url'].notna(), 'model_from_url'] = df['model_from_url'].apply(lambda x: x.split()[1:])
df.loc[df['year_from_url'].isna(), 'model_from_url'] = np.nan

print(df[df['model_from_url'].isna()]['model'].isna().value_counts())

# создадим новую колонку
df['model_new'] = df['model']

# заменим пропуски о годе выпуска данными из новой колонки
df['model_new'] = df['model_new'].combine_first(df['model_from_url'])
df['model_new'] = df['model_new'].apply(lambda x: ' '.join(x) if type(x) == list else np.nan)

# заменим пропуски в годе выпуска данными из новой колонки
df['model_new'] = df['model_new'].combine_first(df['model'])

# сколько пропусков в колонках, описывающих модель машинки
df[['model','model_new']].info()

False    944
True      24
Name: model, dtype: int64
<class 'pandas.core.frame.DataFrame'>
Int64Index: 9999 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   model      9871 non-null   object
 1   model_new  9975 non-null   object
dtypes: object(2)
memory usage: 492.4+ KB


Таким методом мы восстановили 104 пропуска из 128

In [48]:
df[df['model'].isna()]['model_new']

67            range rover needs work
142            jeep liberty 4x4 only
151                    gmc with plow
200            ram 1500 laramie crew
251           dodge ram 2500 slt 4x4
                    ...             
9564                           prius
9616    ram wd regular cab short bed
9670                             NaN
9926                 range rover hse
9972         chevrolet pick up truck
Name: model_new, Length: 128, dtype: object

5. Выведите для обновлённого датафрейма количество пропущенных значений для модели автомобиля.

In [50]:
print("Количество пропущенных значений в model_new:", len(df['model_new'].isna()))  # Допишите код

Количество пропущенных значений в model_new: 9999


In [51]:
# заменим пропуски в годе выпуска данными из новой колонки
df['model'] = df['model'].combine_first(df['model_new'])

In [52]:
# сколько пропусков в колонках, описывающих модель машинки
df[['model','model_new']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9999 entries, 0 to 9999
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   model      9975 non-null   object
 1   model_new  9975 non-null   object
dtypes: object(2)
memory usage: 492.4+ KB


In [53]:
# заполним оставшиеся пропуски значением other
df.model.fillna('other', inplace=True)

In [54]:
# в таблице представлены процент пропущенных значений для каждого признака,
# в котором есть пропуски
# признаки отсортированы по убыванию числа пропущенных значений
info_2_df(df, show_complete_feature = False)

Unnamed: 0,Column,Non-Null,Null,Percent_Null
16,posting_date,9997,2,100.0
11,image_url,9997,2,100.0
12,description,9997,2,100.0
21,model_new,9975,24,99.8
10,transmission,9954,45,99.5
14,lat,9901,98,99.0
15,long,9901,98,99.0
9,title_status,9833,166,98.3
18,model_from_url,9031,968,90.3
19,year_from_url,9031,968,90.3


### Задача 5. Обработка пропусков в статусе автомобиля

1. Выведите количество значений для статуса автомобиля, включая пропущенные значения. Обратите внимание на количество пропущенных значений.


In [55]:
# Ваш код здесь
df['title_status'].value_counts(dropna = False)

clean         9517
rebuilt        171
NaN            166
salvage         92
lien            35
missing         16
parts only       2
Name: title_status, dtype: int64

2. Выведите описательные статистики для модели автомобиля.



In [56]:
# Ваш код здесь
df['model'].describe()

count      9999
unique     3554
top       f-150
freq        151
Name: model, dtype: object

3. Выведите записи, в которых статус автомобиля не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [56]:
# Ваш код здесь
df['title_status'].unique()

array(['clean', nan, 'rebuilt', 'salvage', 'lien', 'missing',
       'parts only'], dtype=object)

4. Обработайте пропуски, заполнив незаполненные значения статуса автомобиля самым популярным значением, и сохраните изменения. Самое популярное значение передайте не в виде строки, а получите моду.


Здесь мы применим другую стратеги, которую использовали для заполнения поля fuel

In [58]:
# пока будем считать вероятности того или иного состояния авто в зависимости от года выпуска
# df_manufacturer_condition = pd.pivot_table(data, index=['manufacturer_new','year_new'], columns='condition', values='model_new', aggfunc='count', fill_value=0)
df_year_condition = pd.pivot_table(df, index=['year'], columns='title_status', values='manufacturer', aggfunc='count', fill_value=0)


def sum_row(row):
    return row['clean'] + row['rebuilt'] + row['salvage']+row['lien'] + row['missing'] +	row['parts only']

# создаю колонку суммы
df_year_condition['total'] = df_year_condition.apply(sum_row, axis=1)
df_year_condition

title_status,clean,lien,missing,parts only,rebuilt,salvage
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1915.0,1,0,0,0,0,0
1923.0,1,0,0,0,0,0
1927.0,1,0,0,0,0,0
1928.0,2,0,0,0,0,0
1929.0,1,0,2,0,0,0
...,...,...,...,...,...,...
2018.0,785,4,0,0,14,7
2019.0,577,1,0,0,15,3
2020.0,418,2,0,0,5,0
2021.0,46,1,0,0,0,0


С помощью сводной таблицы хочу создать дискретное распределение вероятностей находиться в том или ином состоянии в зависимости от года выпуска

In [57]:
df_year_condition = pd.pivot_table(df, index=['year'], columns='title_status', values='manufacturer', aggfunc='count', fill_value=0)
#df_manufacturer_fuel = df_manufacturer_fuel.to_frame()

def sum_row(row):
    return row['clean'] + row['rebuilt'] + row['salvage']+row['lien'] + row['missing'] +	row['parts only']

# создаю колонку суммы
df_year_condition['total'] = df_year_condition.apply(sum_row, axis=1)

df_year_condition_probab = df_year_condition.copy()

# расчитываю вероятности путём деления всех числовых значений на значения в total
df_year_condition_probab = df_year_condition_probab.apply(lambda row: round(row / float(row['total']),2), axis=1)
df_year_condition_probab = df_year_condition_probab.drop('total', axis=1)

# предыдущую таблицу конвертируем в словарь с элементами 'год': [список вероятностей]
data_probab = df_year_condition_probab.to_csv().split('\n')# [1].split()[1])
data_probab = [line.split(',') for line in data_probab]
year_condition_probab_dct = { line[0]: [float(x) for x in line[1:] if x] for line in data_probab[1:-1]}
year_condition_probab_dct

{'1915.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1923.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1927.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1928.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1929.0': [0.33, 0.0, 0.67, 0.0, 0.0, 0.0],
 '1930.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1931.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1932.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1934.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1935.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1937.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1938.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1940.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1941.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1946.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1947.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1948.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1950.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1951.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1952.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1953.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1954.0': [1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
 '1955.0': [0.8, 0.0, 0.2, 0.0, 0.0, 0.0],
 '1956.0'

In [58]:
import random

def get_year_condition_probab(year):
  """
  функция по названию производителя рандомно исходя
  из его дискретного распределения вероятностей используемого топлива
  вычисляет на какм топливе работает его авто
  """
  year = str(year)
  distribution = ['clean', 'rebuilt', 'salvage', 'lien', 'missing', 'parts only'] # задаем распределение
  if year in year_condition_probab_dct:
      probability = year_condition_probab_dct[year] # задаем вероятности
      try:
          res = random.choices(distribution, weights=probability)[0]  # генерируем случайную величину
      except:
          res = 'good'
      return res
  else:
      return 'good'

# выводим результат
get_year_condition_probab(1946.0)

'clean'

In [59]:
# С помощью функции get_year_condition_probab(year) создаём новую колонку
df['title_status_new'] = df['year'].apply(get_year_condition_probab)
# выводим результат
df[df['title_status'].isna()][['year','title_status','title_status_new']]

Unnamed: 0,year,title_status,title_status_new
11,2012.0,,clean
187,2013.0,,clean
245,2019.0,,clean
286,2003.0,,clean
312,2017.0,,clean
...,...,...,...
9740,2013.0,,clean
9805,2012.0,,clean
9840,2014.0,,clean
9856,2006.0,,clean


Исследуем качество метода кумулятивной вероятности

In [60]:
# выделяем подфрейм с заполненными значениями исходного статуса авто
df_title_status = df[df['title_status'].notna()].copy()

# доля неправильно предсказанных
100* df_title_status[df_title_status['title_status'] != df_title_status['title_status_new']].shape[0]/df_title_status.shape[0]

5.959524051662768

Количество неправильно распознанных значений статуса автомобиля - 6%. Впечатляющий результат.

In [61]:
# заменим пропуски в годе выпуска данными из новой колонки
df['title_status'] = df['title_status'].combine_first(df['title_status_new'])

In [62]:
# в таблице представлены процент пропущенных значений для каждого признака,
# в котором остались пропуски
# признаки отсортированы по убыванию числа пропущенных значений
info_2_df(df, show_complete_feature = False)

Unnamed: 0,Column,Non-Null,Null,Percent_Null
12,description,9997,2,100.0
16,posting_date,9997,2,100.0
11,image_url,9997,2,100.0
21,model_new,9975,24,99.8
10,transmission,9954,45,99.5
14,lat,9901,98,99.0
15,long,9901,98,99.0
18,model_from_url,9031,968,90.3
19,year_from_url,9031,968,90.3


5. Выведите для обновлённого датафрейма количество пропущенных значений для статуса автомобиля.


In [63]:
print("Количество пропущенных значений в title_status:", df['title_status'].isna().sum())  # Допишите код

Количество пропущенных значений в title_status: 0


6. Ещё раз выведите количество полностью заполненных объектов и их процент из всей выборки. После обработки всех пропусков можно переходить к следующему этапу.

In [64]:
# Ваш код здесь
def print_useful_rows_info(df):
   print('Количество полностью заполненных объектов из всей выборки: ', len(df.dropna()))
   print('Процент полностью заполненных объектов из всей выборки: ', round(len(df.dropna()) / len(df) * 100, 2))

In [65]:
useful_rows_info = print_useful_rows_info(df)
useful_rows_info

Количество полностью заполненных объектов из всей выборки:  8972
Процент полностью заполненных объектов из всей выборки:  89.73


### Задача 6. Преобразование типа данных в годе выпуска автомобиля
1.  Выведите информацию о датафрейме и обратите внимание на типы данных.


In [66]:
# Ваш код здесь
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9999 entries, 0 to 9999
Data columns (total 24 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id                9999 non-null   int64  
 1   url               9999 non-null   object 
 2   region            9999 non-null   object 
 3   region_url        9999 non-null   object 
 4   price             9999 non-null   int64  
 5   year              9999 non-null   float64
 6   manufacturer      9999 non-null   object 
 7   model             9999 non-null   object 
 8   fuel              9999 non-null   object 
 9   odometer          9999 non-null   float64
 10  title_status      9999 non-null   object 
 11  transmission      9954 non-null   object 
 12  image_url         9997 non-null   object 
 13  description       9997 non-null   object 
 14  state             9999 non-null   object 
 15  lat               9901 non-null   float64
 16  long              9901 non-null   float64


2. Выведите описательные статистики для года выпуска автомобиля. Обратите внимание на тип данных.



In [67]:
# Ваш код здесь
df['year'].describe()

count    9999.000000
mean     2010.955596
std         9.667053
min      1915.000000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64

3. Измените тип данных для года выпуска на более подходящий целочисленный тип и выведите получившийся тип данных только для года выпуска.

In [68]:
# Ваш код здесь
df['year'] = df['year'].astype(int)

### Задача 7. Преобразование типа данных в категориальных переменных

1. Выведите тип данных для типа топлива автомобиля.


In [71]:
# Ваш код здесь
df.dtypes['year']

dtype('int64')

2. Категориальным переменным можно задавать специальный тип данных `category`. Подробнее об этом можно прочитать в [документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html). Укажите для типа топлива тип данных `category`, сохраните изменения в переменную `series` и выведите её.


In [72]:
# Ваш код здесь
df['series'] = df['fuel'].astype('category')

3. Выведите тип данных для серии. Обратите внимание на структуру вывода.

In [74]:
# Ваш код здесь
df.dtypes['series']

CategoricalDtype(categories=['diesel', 'electric', 'gas', 'hybrid', 'other'], ordered=False)

4. Выведите первые две категории, используя вывод типа данных выше.

In [101]:
# Ваш код здесь
df[df["series"].isin(["diesel", "electric"])]["series"].sample(10)

2598      diesel
7817      diesel
7599    electric
3988      diesel
4838      diesel
9242      diesel
551       diesel
9061      diesel
803       diesel
8123      diesel
Name: series, dtype: category
Categories (5, object): ['diesel', 'electric', 'gas', 'hybrid', 'other']

In [83]:
df[df["series"].isin(["diesel", "electric"])]["series"].value_counts()

diesel      659
electric     44
gas           0
hybrid        0
other         0
Name: series, dtype: int64

### Задача 8. Выбросы в годе выпуска

1. Выведите описательные статистики для года выпуска автомобиля. Обратите внимание на пограничные значения, на квартили.



In [81]:
# Ваш код здесь
df['year'].describe()

count    9999.000000
mean     2010.955596
std         9.667053
min      1915.000000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64

2. Выведите границы для нормальных значений года выпуска, используя интерквартильный размах. Воспользуйтесь материалами из видео. Посмотрите, входят ли минимальное и максимальное значения в интервал между полученными границами.


In [102]:
# Ваш код здесь
def get_boundaries_outliers_3sigma (data):
    qntl_25 = data.quantile(.25)
    qntl_75 = data.quantile(.75)
    boundaries = (qntl_25 - 1.5*(qntl_75 - qntl_25), \
                  qntl_75 + 1.5*(qntl_75 - qntl_25))
    return boundaries

In [103]:
# Ваш код здесь
boundaries = get_boundaries_outliers_3sigma (df.year)
boundaries

(1994.5, 2030.5)

3. Посчитайте и выведите количество выбросов в годе выпуска автомобиля.


In [104]:
# Ваш код здесь
is_outliers = (df.year < boundaries[0]) | (df.year > boundaries[1])
is_outliers.value_counts()

False    9605
True      394
Name: year, dtype: int64

4. Посчитайте и выведите долю выбросов в годе выпуска автомобиля.


In [105]:
# Ваш код здесь
100*df[(df.year < boundaries[0]) | (df.year > boundaries[1])].shape[0]/df.shape[0]

3.9403940394039405

5. Выведите записи, в которых год выпуска попадает в выбросы. Посмотрите на данные и подумайте, могут ли эти выбросы описывать особые значения категории цены или других признаков или действительно являются выбросами.


In [106]:
# Ваш код здесь
df[(df.year < boundaries[0]) | (df.year > boundaries[1])]

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,...,lat,long,posting_date,price_category,model_from_url,year_from_url,fuel_cumulative,model_new,title_status_new,series
13,7317089086,https://seattle.craigslist.org/see/ctd/d/portl...,seattle-tacoma,https://seattle.craigslist.org,14995,1994,ford,e-series van universal by glaval designer luxu...,gas,156925.0,...,45.391373,-122.613533,2021-05-04T20:22:11-0700,medium,"[ford, econoline, van]",1994,gas,e-series van universal by glaval designer luxu...,clean,gas
21,7312327909,https://madison.craigslist.org/cto/d/madison-1...,madison,https://madison.craigslist.org,89995,1970,other,oldsmobile 442,gas,111111.0,...,43.098400,-89.273400,2021-04-25T10:10:43-0500,high,"[oldsmobile, 442, convertible]",1970,gas,oldsmobile 442,clean,gas
57,7314413105,https://inlandempire.craigslist.org/ctd/d/cost...,inland empire,https://inlandempire.craigslist.org,69888,1948,ford,coe,gas,1.0,...,33.680100,-117.908500,2021-04-29T10:49:29-0700,high,"[1948, ford, coe, car, hauler]",1948,gas,coe,clean,gas
66,7310077530,https://hudsonvalley.craigslist.org/cto/d/bloo...,hudson valley,https://hudsonvalley.craigslist.org,5500,1990,other,Diahatsu,gas,30000.0,...,41.564400,-74.430400,2021-04-20T18:30:18-0400,low,,,gas,Diahatsu,clean,gas
106,7314527175,https://rapidcity.craigslist.org/ctd/d/sherman...,rapid city / west SD,https://rapidcity.craigslist.org,43500,1968,chevrolet,camaro,gas,43320.0,...,33.637200,-96.618400,2021-04-29T15:11:01-0600,high,"[chevrolet, camaro]",1968,gas,camaro,clean,gas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9886,7313487583,https://springfield.craigslist.org/cto/d/mount...,springfield,https://springfield.craigslist.org,3500,1974,jeep,cj5,gas,10000.0,...,36.331200,-92.375300,2021-04-27T14:30:28-0500,low,"[1974, cj5]",1974,gas,cj5,clean,gas
9921,7311566144,https://chico.craigslist.org/cto/d/chico-1994-...,chico,https://chico.craigslist.org,16000,1994,ford,f250,gas,32500.0,...,39.745800,-121.844400,2021-04-23T13:51:20-0700,medium,"[ford, original, miles]",1994,gas,f250,clean,gas
9944,7313676859,https://reno.craigslist.org/ctd/d/sherman-1984...,reno / tahoe,https://reno.craigslist.org,26500,1984,chevrolet,silverado,gas,38751.0,...,33.637200,-96.618400,2021-04-27T19:44:27-0700,high,"[chevrolet, silverado, swb]",1984,gas,silverado,clean,gas
9972,7316458200,https://portland.craigslist.org/mlt/cto/d/port...,portland,https://portland.craigslist.org,18500,1972,chevrolet,chevrolet pick up truck,gas,75000.0,...,45.494960,-122.666988,2021-05-03T14:58:34-0700,medium,"[chevrolet, pick, up, truck]",1972,gas,chevrolet pick up truck,clean,gas


6. Выведите количество значений для категории цены для записей, в которых год выпуска автомобиля является выбросом. Описывают ли аномальные значения года выпуска какое-либо из значений цены автомобиля лучше, чем остальные?


In [108]:
df.columns

Index(['id', 'url', 'region', 'region_url', 'price', 'year', 'manufacturer',
       'model', 'fuel', 'odometer', 'title_status', 'transmission',
       'image_url', 'description', 'state', 'lat', 'long', 'posting_date',
       'price_category', 'model_from_url', 'year_from_url', 'fuel_cumulative',
       'model_new', 'title_status_new', 'series'],
      dtype='object')

In [110]:
# Ваш код здесь
df[(df.year < boundaries[0]) | (df.year > boundaries[1])]['price_category'].value_counts()

low       181
medium    135
high       78
Name: price_category, dtype: int64

7. Так как выбросы в годе выпуска находятся среди минимальных значений, заполните те значения, которые являются выбросами, значением нижней границы. Не забудьте учесть, что год должен быть целочисленным значением, входящим в границы нормальных значений.


In [111]:
# Ваш код здесь
df.loc[(df.year < boundaries[0]),'year'] = boundaries[0]

8. Выведите ещё раз описательные статистики для года выпуска автомобиля, чтобы проверить, что теперь все значения года входят в границы нормальных значений.

In [112]:
# Ваш код здесь
df['year'].describe()

count    9999.000000
mean     2011.714171
std         6.467351
min      1994.500000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64

In [117]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9999 entries, 0 to 9999
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   id              9999 non-null   int64   
 1   url             9999 non-null   object  
 2   region          9999 non-null   object  
 3   region_url      9999 non-null   object  
 4   price           9999 non-null   int64   
 5   year            9999 non-null   float64 
 6   manufacturer    9999 non-null   object  
 7   model           9999 non-null   object  
 8   fuel            9999 non-null   object  
 9   odometer        9999 non-null   float64 
 10  title_status    9999 non-null   object  
 11  transmission    9954 non-null   object  
 12  image_url       9997 non-null   object  
 13  description     9997 non-null   object  
 14  state           9999 non-null   object  
 15  lat             9901 non-null   float64 
 16  long            9901 non-null   float64 
 17  posting_date  

### Удалим все вспомогательные колонки и сохраним датафрейм в csv-файл

In [116]:
# удалим вспомогательные колонки
# model_from_url,year_from_url, fuel_cumulative, model_new, title_status_new из датафрейма data
df.drop(['model_from_url','year_from_url', 'fuel_cumulative', 'model_new', 'title_status_new'], axis=1, inplace=True)

In [118]:
# сохраним обновленный датафрейм в файл
df.to_csv('/content/drive/MyDrive/SkillBox/data/vehicles_dataset_clean_updated.csv')

## Дополнительные задачи

### Задача 9. Загрузка датафрейма с параметрами преобразования

Некоторые преобразования признаков можно сделать ещё в момент загрузки датафрейма из файла.

1. Прочитайте в новый датафрейм файл `data/vehicles_dataset.csv`, выбрав только нужные колонки и применив приведение типов данных. Обратитесь к [документации](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), чтобы узнать, за что отвечают параметры `usecols`,  `parse_dates` и `dtype`.


Датафрейм должен содержать:
- колонки `price`, `year`, `posting_date`;
- `posting_date` в datatime-формате;
- `price` в вещественном формате;
- `year` в целочисленном формате.

Возможно, вы столкнётесь с ошибкой при считывании года в виде целого числа. Подробнее о том, как бороться с этой ошибкой, можно узнать в документации по `обнуляемому целочисленному типу данных`:
- https://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html

*Подсказка:* Pandas может представлять целочисленные данные с возможными отсутствующими значениями, используя [arrays.IntegerArray](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.arrays.IntegerArray.html#pandas.arrays.IntegerArray) или его псевдонимы, которые вы сможете найти в документации.

In [130]:
# Ваш код здесь
file_path = '/content/drive/MyDrive/SkillBox/data/vehicles_dataset.csv'
df_new = pd.read_csv(file_path, usecols=[4, 5, 25], parse_dates=[2], dtype={0: np.float64, 1: np.int64})
df_new.head()

Unnamed: 0,price,year,posting_date
0,54990,2020.0,2021-04-17 12:30:50-04:00
1,16942,2016.0,2021-05-03 15:40:21-04:00
2,35590,2017.0,2021-04-28 03:52:20-07:00
3,14500,2013.0,2021-04-17 10:08:57-04:00
4,21800,2021.0,2021-05-03 18:32:06-04:00


2. Выведите информацию о датафрейме, чтобы убедиться, что признаки при загрузке преобразовались верно.


In [123]:
# Ваш код здесь
df_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10050 entries, 0 to 10049
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   price         10050 non-null  int64  
 1   year          10014 non-null  float64
 2   posting_date  10048 non-null  object 
dtypes: float64(1), int64(1), object(1)
memory usage: 235.7+ KB


3. Для первой записи в датафрейме извлеките из `posting_date` и выведите номер месяца.


In [126]:
# Ваш код здесь
df_new['posting_date'][0]

datetime.datetime(2021, 4, 17, 12, 30, 50, tzinfo=tzoffset(None, -14400))

In [129]:
df_new['posting_date'][0].month

4