# Разведочный анализ данных: Data Cleaning. Практическая работа

## Цели практической работы
* Потренироваться выявлять и заполнять пропущенные значения в данных.
* Потренироваться преобразовывать типы данных.
* Потренироваться выявлять и обрабатывать аномальные значения в данных.
* Подготовить датафрейм к этапу генерации признаков.



## Задача

В этой практической работе вы продолжите исследовать и готовить данные для этапа моделирования: заполнять пропущенные значения в некоторых переменных, изменять типы данных и обрабатывать выбросы.

Напомним, что вы работаете с небольшой выборкой из коллекции подержанных автомобилей, выставленных на продажу в Соединённых Штатах. На этих данных вы построите первую модель классификации, определяющую категорию цены подержанного автомобиля в зависимости от характеристик транспортного средства.

## Описание датасета:
- `id`: идентификатор записи;
- `url`: URL записи о продаже;
- `region`: регион;
- `region_url`: URL региона;
- `price`: стоимость;
- `year`: год выпуска;
- `manufacturer`: производитель;
- `model`: модель;
- `condition`: состояние;
- `cylinders`: количество цилиндров;
- `fuel`: тип топлива;
- `odometer`: количество пройденных миль;
- `title_status`: статус;
- `transmission`: коробка передач;
- `VIN`: идентификационный номер;
- `drive`: тип привода;
- `size`: размер;
- `type`: кузов;
- `paint_color`: цвет;
- `image_url`: URL изображения;
- `description`: указанное описание;
- `county`: страна;
- `state`: штат;
- `lat`: широта;
- `long`: долгота;
- `posting_date`: дата размещения объявления о продаже;
- `price_category`: категория цены.


## Что входит в практическую работу
1. Загрузить датасет и ознакомиться с ним.
2. Исследовать переменные датасета на наличие пропусков.
3. Обработать пропуски в зависимости от типа переменной.
4. Изменить типы данных.
5. Исследовать данные на аномальные значения и скорректировать выбросы.

## Что оценивается
- Программа выдаёт верный ответ на заданном наборе данных.
- Описаны причины выбранного решения, если требуется.
- Код читабелен: переменным даны осмысленные названия, отступы и правила расстановки пробелов соблюдены.
- Репозиторий проекта содержит осмысленные коммиты с конкретными реализованными фичами, ветки названы согласно назначению, лишние файлы не хранятся в репозитории.
- В репозитории проекта соблюдена иерархия директорий согласно списку модулей и содержащихся в них видеоматериалов.
- Репозиторий проекта содержит файлы с данными, полученными в результате выполнения практической работы.




## Как отправить работу на проверку
Сдайте практическую работу этого модуля через систему контроля версий Git сервиса Skillbox GitLab. После загрузки работы на проверку напишите об этом в личном кабинете своему куратору.

## Обязательные задачи

In [None]:
# Импортируйте необходимые библиотеки

### Задача 1. Загрузка датасета и ознакомление с количеством пропущенных значений

1. Загрузите датасет из `data/df_out.csv` и выведите первые пять записей.



In [3]:
import pandas as pd
df = pd.read_csv('data/df_out.csv')
print(df.head())

           id                                                url  \
0  7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1  7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2  7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3  7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4  7316474668  https://newyork.craigslist.org/lgi/cto/d/baldw...   

          region                           region_url  price    year  \
0    chattanooga   https://chattanooga.craigslist.org  54990  2020.0   
1   north jersey     https://newjersey.craigslist.org  16942  2016.0   
2   reno / tahoe          https://reno.craigslist.org  35590  2017.0   
3   fayetteville  https://fayetteville.craigslist.org  14500  2013.0   
4  new york city       https://newyork.craigslist.org  21800  2021.0   

  manufacturer                   model    fuel  odometer title_status  \
0          ram  2500 crew cab big horn  diesel     27442        clean   
1         fo

2. Выведите информацию о датафрейме и обратите внимание на оставшиеся незаполненные значения.


In [7]:
print(df.info())
print("\nКоличество пропущенных значений по столбцам:")
print(df.isnull().sum())
print("\nПроцент пропущенных значений по столбцам:")
print(df.isnull().mean() * 100)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9902 entries, 0 to 9901
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              9902 non-null   int64  
 1   url             9902 non-null   object 
 2   region          9902 non-null   object 
 3   region_url      9902 non-null   object 
 4   price           9902 non-null   int64  
 5   year            9868 non-null   float64
 6   manufacturer    9902 non-null   object 
 7   model           9776 non-null   object 
 8   fuel            9841 non-null   object 
 9   odometer        9902 non-null   int64  
 10  title_status    9738 non-null   object 
 11  transmission    9902 non-null   object 
 12  image_url       9902 non-null   object 
 13  description     9902 non-null   object 
 14  state           9902 non-null   object 
 15  lat             9902 non-null   float64
 16  long            9902 non-null   float64
 17  posting_date    9902 non-null   o

3. Выведите количество полностью заполненных объектов и их процент из всей выборки. Воспользуйтесь материалами из видео.


In [11]:
fully_filled_count = df.dropna().shape[0]
total_count = df.shape[0]
fully_filled_percentage = (fully_filled_count / total_count) * 100
print(f"Количество полностью заполненных объектов: {fully_filled_count}")
print(f"Процент полностью заполненных объектов: {fully_filled_percentage:.2f}%")

Количество полностью заполненных объектов: 9543
Процент полностью заполненных объектов: 96.37%


4. Сохраните в переменную и выведите процент пропущенных значений для каждого признака, отсортируйте признаки по убыванию процента пропущенных значений. Воспользуйтесь материалами из видео и не забудьте передать верный параметр сортировки.


In [13]:
missing_percentage = df.isnull().mean() * 100
missing_percentage_sorted = missing_percentage.sort_values(ascending=False)
print(missing_percentage_sorted)

title_status      1.656231
model             1.272470
fuel              0.616037
year              0.343365
image_url         0.000000
price_category    0.000000
posting_date      0.000000
long              0.000000
lat               0.000000
state             0.000000
description       0.000000
id                0.000000
transmission      0.000000
url               0.000000
odometer          0.000000
manufacturer      0.000000
price             0.000000
region_url        0.000000
region            0.000000
date              0.000000
dtype: float64


5. Выведите список всех признаков, в которых имеются пропущенные значения. Воспользуйтесь результатом вывода предыдущего задания, чтобы отсортировать признаки, подходящие под условие.

In [15]:
missing_features = missing_percentage_sorted[missing_percentage_sorted > 0]


print("Список признаков с пропущенными значениями (отсортированный):")
print(missing_features)


print("\nСписок названий признаков с пропущенными значениями (отсортированный):")
print(missing_features.index.tolist())

Список признаков с пропущенными значениями (отсортированный):
title_status    1.656231
model           1.272470
fuel            0.616037
year            0.343365
dtype: float64

Список названий признаков с пропущенными значениями (отсортированный):
['title_status', 'model', 'fuel', 'year']


### Задача 2. Обработка пропусков в годе выпуска автомобиля

1. Выведите количество значений для года выпуска автомобиля, включая пропущенные значения.


In [17]:

print(df['year'].value_counts(dropna=False))


print("\nКоличество уникальных значений для года выпуска автомобиля:")
print(df['year'].nunique(dropna=False))

year
2017.0    808
2018.0    799
2016.0    733
2013.0    685
2015.0    664
         ... 
1927.0      1
1958.0      1
1941.0      1
1935.0      1
1954.0      1
Name: count, Length: 90, dtype: int64

Количество уникальных значений для года выпуска автомобиля:
90


2. Выведите количество пропущенных значений в годе выпуска автомобиля.



In [19]:
print("Количество пропущенных значений в годе выпуска автомобиля:")
print(df['year'].isnull().sum())

Количество пропущенных значений в годе выпуска автомобиля:
34


3. Выведите описательные статистики для года выпуска автомобиля.


In [21]:
print("Описательные статистики для года выпуска автомобиля:")
print(df['year'].describe())

Описательные статистики для года выпуска автомобиля:
count    9868.000000
mean     2010.909708
std         9.705988
min      1915.000000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64


4. Выведите записи, в которых год выпуска автомобиля не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [23]:
print("Записи, в которых год выпуска автомобиля не заполнен:")
print(df[df['year'].isnull()])

Записи, в которых год выпуска автомобиля не заполнен:
              id                                                url  \
342   7304102133  https://wenatchee.craigslist.org/ctd/d/wenatch...   
418   7316337069  https://lasvegas.craigslist.org/ctd/d/scottsda...   
423   7315662117  https://westslope.craigslist.org/ctd/d/denver-...   
697   7316199009  https://nashville.craigslist.org/ctd/d/nashvil...   
887   7316840794  https://denver.craigslist.org/ctd/d/american-f...   
900   7311915616  https://westslope.craigslist.org/ctd/d/denver-...   
998   7306735187  https://westslope.craigslist.org/ctd/d/denver-...   
1208  7309954650  https://gainesville.craigslist.org/ctd/d/gaine...   
1308  7313865045  https://westslope.craigslist.org/ctd/d/denver-...   
1828  7303344554  https://daytona.craigslist.org/ctd/d/new-smyrn...   
2270  7311762820  https://huntsville.craigslist.org/ctd/d/new-ca...   
2481  7315662074  https://santafe.craigslist.org/ctd/d/denver-20...   
2603  7314588156  https

5. Обработайте пропуски, удалив записи, в которых год выпуска автомобиля не заполнен, и сохраните обновлённый датафрейм, а затем выведите его размерность.


In [25]:
df_cleaned = df.dropna(subset=['year'])
print("Размерность очищенного датафрейма:")
print(df_cleaned.shape)


Размерность очищенного датафрейма:
(9868, 20)


6. Выведите количество пропущенных значений в годе выпуска автомобиля для обновлённого датафрейма.

In [29]:
print("Количество пропущенных значений в year: ", end="") 
print(df_cleaned['year'].isnull().sum())

Количество пропущенных значений в year: 0


### Задача 3. Обработка пропусков в типе топлива

1. Выведите количество значений для типа топлива, включая пропущенные значения. Обратите внимание на количество пропущенных значений.




In [35]:
print("Количество значений для типа топлива (включая пропущенные):")
print(df_cleaned['fuel'].value_counts(dropna=False))

print("\nКоличество пропущенных значений для типа топлива:")
print(df_cleaned['fuel'].isnull().sum())

Количество значений для типа топлива (включая пропущенные):
fuel
gas         8298
other        725
diesel       643
hybrid       104
NaN           54
electric      44
Name: count, dtype: int64

Количество пропущенных значений для типа топлива:
54


2. Выведите описательные статистики для типа топлива.


In [47]:
print("Описательные статистики для года выпуска автомобиля:")
print(df['fuel'].describe())

Описательные статистики для года выпуска автомобиля:
count     9841
unique       5
top        gas
freq      8321
Name: fuel, dtype: object


3. Выведите записи, в которых тип топлива не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [49]:
print("Записи, в которых год выпуска автомобиля не заполнен:")
print(df[df['fuel'].isnull()])

Записи, в которых год выпуска автомобиля не заполнен:
              id                                                url  \
1     7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
32    7309910590  https://eugene.craigslist.org/ctd/d/eugene-200...   
78    7314559074  https://eugene.craigslist.org/ctd/d/eugene-200...   
273   7315141987  https://honolulu.craigslist.org/oah/ctd/d/fort...   
423   7315662117  https://westslope.craigslist.org/ctd/d/denver-...   
...          ...                                                ...   
8682  7313576130  https://cnj.craigslist.org/ctd/d/parlin-2012-j...   
9351  7309365699  https://fortmyers.craigslist.org/chl/ctd/d/bra...   
9541  7313475467  https://eugene.craigslist.org/ctd/d/eugene-201...   
9708  7313949726  https://harrisburg.craigslist.org/ctd/d/brockp...   
9718  7314349617  https://eugene.craigslist.org/ctd/d/eugene-200...   

                     region                         region_url  price    year  \
1           

4. Обработайте пропуски, заполнив незаполненные значения типа топлива значением `other`, и сохраните изменения. Обратите внимание, что мы заполняем пропуски не самым популярным значением в выборке.


In [51]:
 df['fuel'] = df['fuel'].fillna('other')
 print("Количество пропусков в 'fuel':", df['fuel'].isnull().sum())

Количество пропусков в 'fuel': 0


5. Выведите для обновлённого датафрейма количество пропущенных значений для типа топлива.

In [59]:
print("Количество пропущенных значений в fuel: ", end="") 
print(df['fuel'].isnull().sum())

Количество пропущенных значений в fuel: 0


### Задача 4. Обработка пропусков в модели автомобиля

1. Выведите количество значений для модели автомобиля, включая пропущенные значения. Обратите внимание на количество пропущенных значений.



In [65]:
print("Количество значений для каждой модели (включая пропущенные):")
print(df['model'].value_counts(dropna=False))
missing_count = df['model'].isnull().sum()
print(f"\nОбщее количество пропущенных значений в столбце 'model': {missing_count}")

Количество значений для каждой модели (включая пропущенные):
model
f-150                        148
NaN                          126
silverado 1500               106
1500                         100
camry                         76
                            ... 
grand caravan sport            1
Nascar                         1
titan le                       1
sorrento lx v6                 1
a3 2.0t premium plus pzev      1
Name: count, Length: 3458, dtype: int64

Общее количество пропущенных значений в столбце 'model': 126


2. Выведите описательные статистики для модели автомобиля.


In [67]:
print("Описательные статистики для года выпуска автомобиля:")
print(df['model'].describe())

Описательные статистики для года выпуска автомобиля:
count      9776
unique     3457
top       f-150
freq        148
Name: model, dtype: object


3. Выведите записи, в которых модель автомобиля не заполнена. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [71]:
missing_model = df[df['model'].isnull()]

print("Количество записей с пропущенной моделью:", len(missing_model))
print("\nЗаписи с пропущенной моделью:")
print(missing_model)

Количество записей с пропущенной моделью: 126

Записи с пропущенной моделью:
              id                                                url  \
67    7316913641  https://ventura.craigslist.org/cto/d/camarillo...   
140   7316550853  https://chicago.craigslist.org/chc/cto/d/midlo...   
149   7303575863  https://worcester.craigslist.org/ctd/d/fitchbu...   
198   7315267860  https://gainesville.craigslist.org/ctd/d/kissi...   
249   7316024407  https://reading.craigslist.org/ctd/d/paterson-...   
...          ...                                                ...   
9469  7314341390  https://desmoines.craigslist.org/cto/d/urbanda...   
9521  7304358131  https://vermont.craigslist.org/ctd/d/salem-201...   
9573  7309686008  https://louisville.craigslist.org/cto/d/radcli...   
9828  7316447901  https://tulsa.craigslist.org/cto/d/tulsa-2017-...   
9874  7316458200  https://portland.craigslist.org/mlt/cto/d/port...   

                      region                          region_url  pric

4. Если подробнее изучить значения описания автомобиля, то, возможно, модель автомобиля получится восстановить из описания. Сейчас обработайте пропуски, заполнив незаполненные значения модели автомобиля значением `other`, и сохраните изменения. Обратите внимание, что мы в очередной раз заполняем пропуски не самым популярным значением в выборке.


In [79]:
df['model'].fillna('other', inplace=True)
print("Количество пропусков в 'model':", df['model'].isnull().sum())

Количество пропусков в 'model': 0


5. Выведите для обновлённого датафрейма количество пропущенных значений для модели автомобиля.

In [81]:
print("Количество пропущенных значений в model: ", end="") 
print(df['model'].isnull().sum())

Количество пропущенных значений в model: 0


### Задача 5. Обработка пропусков в статусе автомобиля

1. Выведите количество значений для статуса автомобиля, включая пропущенные значения. Обратите внимание на количество пропущенных значений.


In [83]:
print("Количество значений для каждого статуса (включая пропущенные):")
print(df['title_status'].value_counts(dropna=False))

missing_count = df['title_status'].isnull().sum()
print(f"\nКоличество пропущенных значений в столбце 'title_status': {missing_count}")

Количество значений для каждого статуса (включая пропущенные):
title_status
clean         9423
rebuilt        171
NaN            164
salvage         91
lien            35
missing         16
parts only       2
Name: count, dtype: int64

Количество пропущенных значений в столбце 'title_status': 164


2. Выведите описательные статистики для модели автомобиля.



In [87]:
print("Описательные статистики для года выпуска автомобиля:")
print(df['title_status'].describe())

Описательные статистики для года выпуска автомобиля:
count      9738
unique        6
top       clean
freq       9423
Name: title_status, dtype: object


3. Выведите записи, в которых статус автомобиля не заполнен. Посмотрите на данные и подумайте, какую стратегию обработки значений можно применить.


In [85]:
missing_mode2 = df[df['title_status'].isnull()]

print("Количество записей с пропущенной моделью:", len(missing_model))
print("\nЗаписи с пропущенной моделью:")
print(missing_mode2)

Количество записей с пропущенной моделью: 126

Записи с пропущенной моделью:
              id                                                url  \
11    7316540706  https://cincinnati.craigslist.org/ctd/d/fairfi...   
185   7313570594  https://orangecounty.craigslist.org/ctd/d/coro...   
243   7315211652  https://ocala.craigslist.org/ctd/d/riverview-2...   
284   7306702976  https://toledo.craigslist.org/ctd/d/chelsea-73...   
310   7307609203  https://roseburg.craigslist.org/ctd/d/eugene-2...   
...          ...                                                ...   
9643  7301707830  https://tricities.craigslist.org/ctd/d/bristol...   
9708  7313949726  https://harrisburg.craigslist.org/ctd/d/brockp...   
9743  7314987181  https://nashville.craigslist.org/ctd/d/nashvil...   
9759  7309717260  https://savannah.craigslist.org/ctd/d/jacksonv...   
9883  7315557731  https://minneapolis.craigslist.org/csw/ctd/d/d...   

                     region                           region_url  pric

4. Обработайте пропуски, заполнив незаполненные значения статуса автомобиля самым популярным значением, и сохраните изменения. Самое популярное значение передайте не в виде строки, а получите моду.


In [93]:
most_frequent_status = df['title_status'].mode()[0]
df['title_status'].fillna(most_frequent_status, inplace=True)
print(f"Пропущенные значения в столбце 'title_status' заполнены значением '{most_frequent_status}'.")

Пропущенные значения в столбце 'title_status' заполнены значением 'clean'.


5. Выведите для обновлённого датафрейма количество пропущенных значений для статуса автомобиля.


In [99]:
print("Количество пропущенных значений в title_status:") 
print(df['title_status'].isnull().sum())

Количество пропущенных значений в title_status:
0


6. Ещё раз выведите количество полностью заполненных объектов и их процент из всей выборки. После обработки всех пропусков можно переходить к следующему этапу.

In [121]:
total_rows = len(df)
complete_rows = df.dropna().shape[0]
percentage = (complete_rows / total_rows * 100)
print(f"Общее количество строк в DataFrame: {total_rows}")
print(f"Количество полностью заполненных строк: {complete_rows}")
print(f"Процент полностью заполненных строк: {percentage}%")


Общее количество строк в DataFrame: 9902
Количество полностью заполненных строк: 9868
Процент полностью заполненных строк: 99.65663502322764%


### Задача 6. Преобразование типа данных в годе выпуска автомобиля
1.  Выведите информацию о датафрейме и обратите внимание на типы данных.


In [123]:
print(df.info())
print("\nКоличество пропущенных значений по столбцам:")
print(df.isnull().sum())
print("\nПроцент пропущенных значений по столбцам:")
print(df.isnull().mean() * 100)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9902 entries, 0 to 9901
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              9902 non-null   int64  
 1   url             9902 non-null   object 
 2   region          9902 non-null   object 
 3   region_url      9902 non-null   object 
 4   price           9902 non-null   int64  
 5   year            9868 non-null   float64
 6   manufacturer    9902 non-null   object 
 7   model           9902 non-null   object 
 8   fuel            9902 non-null   object 
 9   odometer        9902 non-null   int64  
 10  title_status    9902 non-null   object 
 11  transmission    9902 non-null   object 
 12  image_url       9902 non-null   object 
 13  description     9902 non-null   object 
 14  state           9902 non-null   object 
 15  lat             9902 non-null   float64
 16  long            9902 non-null   float64
 17  posting_date    9902 non-null   o

2. Выведите описательные статистики для года выпуска автомобиля. Обратите внимание на тип данных.



In [125]:
print("Описательные статистики для года выпуска автомобиля:")
print(df['title_status'].describe())

Описательные статистики для года выпуска автомобиля:
count      9902
unique        6
top       clean
freq       9587
Name: title_status, dtype: object


3. Измените тип данных для года выпуска на более подходящий целочисленный тип и выведите получившийся тип данных только для года выпуска.

In [133]:
df['year'] = df['year'].fillna(0)
df['year'] = df['year'].astype('int')
print(f"Тип данных для столбца 'year' после преобразования: {df['year'].dtype}")

Тип данных для столбца 'year' после преобразования: int32


### Задача 7. Преобразование типа данных в категориальных переменных

1. Выведите тип данных для типа топлива автомобиля.


In [135]:
 print(f"Тип данных для столбца 'fuel': {df['fuel'].dtype}")

Тип данных для столбца 'fuel': object


2. Категориальным переменным можно задавать специальный тип данных `category`. Подробнее об этом можно прочитать в [документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html). Укажите для типа топлива тип данных `category`, сохраните изменения в переменную `series` и выведите её.


In [143]:
series = df['fuel'].astype('category')
print(f"Тип данных для столбца 'fuel' после преобразования: {series.dtype}")
print("\nSeries с типом данных category:")
print(series)

Тип данных для столбца 'fuel' после преобразования: category

Series с типом данных category:
0       diesel
1        other
2          gas
3          gas
4          gas
         ...  
9897       gas
9898       gas
9899       gas
9900    hybrid
9901       gas
Name: fuel, Length: 9902, dtype: category
Categories (5, object): ['diesel', 'electric', 'gas', 'hybrid', 'other']


3. Выведите тип данных для серии. Обратите внимание на структуру вывода.

In [147]:
print(f"Тип данных для столбца 'fuel' после преобразования: {series.dtype}")
print("\nSeries с типом данных category:")
print(series)

Тип данных для столбца 'fuel' после преобразования: category

Series с типом данных category:
0       diesel
1        other
2          gas
3          gas
4          gas
         ...  
9897       gas
9898       gas
9899       gas
9900    hybrid
9901       gas
Name: fuel, Length: 9902, dtype: category
Categories (5, object): ['diesel', 'electric', 'gas', 'hybrid', 'other']


4. Выведите первые две категории, используя вывод типа данных выше.

In [149]:
print(f"Тип данных для серии fuel_series: {series.dtype}")
print("\nПервые две категории в series:")
print(series.cat.categories[:2])

Тип данных для серии fuel_series: category

Первые две категории в series:
Index(['diesel', 'electric'], dtype='object')


### Задача 8. Выбросы в годе выпуска

1. Выведите описательные статистики для года выпуска автомобиля. Обратите внимание на пограничные значения, на квартили.



In [151]:
print("Описательные статистики для года выпуска автомобиля:")
print(df['year'].describe())
print("\nКвартили:")
print(df['year'].quantile([0.25, 0.5, 0.75]))

Описательные статистики для года выпуска автомобиля:
count    9902.000000
mean     2004.004948
std       118.035811
min         0.000000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64

Квартили:
0.25    2008.0
0.50    2013.0
0.75    2017.0
Name: year, dtype: float64


2. Выведите границы для нормальных значений года выпуска, используя интерквартильный размах. Воспользуйтесь материалами из видео. Посмотрите, входят ли минимальное и максимальное значения в интервал между полученными границами.


In [153]:
print("Описательные статистики для года выпуска автомобиля:")
print(df['year'].describe())
print("\nКвартили:")
print(df['year'].quantile([0.25, 0.5, 0.75]))

Описательные статистики для года выпуска автомобиля:
count    9902.000000
mean     2004.004948
std       118.035811
min         0.000000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64

Квартили:
0.25    2008.0
0.50    2013.0
0.75    2017.0
Name: year, dtype: float64


3. Посчитайте и выведите количество выбросов в годе выпуска автомобиля.


In [155]:
Q1 = df['year'].quantile(0.25)
Q3 = df['year'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['year'] < lower_bound) | (df['year'] > upper_bound)]
num_outliers = len(outliers)

print(f"Количество выбросов в годе выпуска: {num_outliers}")

Количество выбросов в годе выпуска: 428


4. Посчитайте и выведите долю выбросов в годе выпуска автомобиля.


In [173]:
outliers = df[(df['year'] < lower_bound) | (df['year'] > upper_bound)]
num_outliers = len(outliers)
total_count = len(df)
outliers_percentage = (num_outliers / total_count) * 100

print(f"Доля выбросов в годе выпуска: {outliers_percentage:.2f}%")


Доля выбросов в годе выпуска: 0.00%


5. Выведите записи, в которых год выпуска попадает в выбросы. Посмотрите на данные и подумайте, могут ли эти выбросы описывать особые значения категории цены или других признаков или действительно являются выбросами.


In [195]:
Q1 = df['year'].quantile(0.25)
Q3 = df['year'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers_df = df[(df['year'] < lower_bound) | (df['year'] > upper_bound)]

print("Записи с годом выпуска, являющимся выбросом:")
print(outliers_df)


Записи с годом выпуска, являющимся выбросом:
Empty DataFrame
Columns: [id, url, region, region_url, price, year, manufacturer, model, fuel, odometer, title_status, transmission, image_url, description, state, lat, long, posting_date, price_category, date]
Index: []


6. Выведите количество значений для категории цены для записей, в которых год выпуска автомобиля является выбросом. Описывают ли аномальные значения года выпуска какое-либо из значений цены автомобиля лучше, чем остальные?


In [185]:
outliers_df = df[(df['year'] < lower_bound) | (df['year'] > upper_bound)]
price_category_counts = outliers_df['price_category'].value_counts()
print("Распределение категорий цен среди выбросов года выпуска:")
print(price_category_counts)

Распределение категорий цен среди выбросов года выпуска:
Series([], Name: count, dtype: int64)


7. Так как выбросы в годе выпуска находятся среди минимальных значений, заполните те значения, которые являются выбросами, значением нижней границы. Не забудьте учесть, что год должен быть целочисленным значением, входящим в границы нормальных значений.


In [187]:
import numpy as np
lower_bound = int(np.ceil(lower_bound))
df['year'] = df['year'].apply(lambda year: lower_bound if year < lower_bound else year)
print("Записи после обработки:")
print(df)
print(f"Нижняя граница: {lower_bound}")

Записи после обработки:
              id                                                url  \
0     7308295377  https://chattanooga.craigslist.org/ctd/d/chatt...   
1     7316380095  https://newjersey.craigslist.org/ctd/d/carlsta...   
2     7313733749  https://reno.craigslist.org/ctd/d/atlanta-2017...   
3     7308210929  https://fayetteville.craigslist.org/ctd/d/rale...   
4     7316474668  https://newyork.craigslist.org/lgi/cto/d/baldw...   
...          ...                                                ...   
9897  7304876387  https://chautauqua.craigslist.org/ctd/d/falcon...   
9898  7316152972  https://binghamton.craigslist.org/ctd/d/roches...   
9899  7310993818  https://salem.craigslist.org/ctd/d/salem-2011-...   
9900  7306637427  https://madison.craigslist.org/ctd/d/madison-2...   
9901  7311960763  https://norfolk.craigslist.org/ctd/d/chesapeak...   

                       region                           region_url  price  \
0                 chattanooga   https://chatta

8. Выведите ещё раз описательные статистики для года выпуска автомобиля, чтобы проверить, что теперь все значения года входят в границы нормальных значений.

In [193]:
print("Описательные статистики для года выпуска автомобиля после обработки:")
print(df['year'].describe())


Описательные статистики для года выпуска автомобиля после обработки:
count    9902.000000
mean     2011.640982
std         6.488020
min      1995.000000
25%      2008.000000
50%      2013.000000
75%      2017.000000
max      2022.000000
Name: year, dtype: float64


## Дополнительные задачи

### Задача 9. Загрузка датафрейма с параметрами преобразования

Некоторые преобразования признаков можно сделать ещё в момент загрузки датафрейма из файла.

1. Прочитайте в новый датафрейм файл `data/vehicles_dataset.csv`, выбрав только нужные колонки и применив приведение типов данных. Обратитесь к [документации](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), чтобы узнать, за что отвечают параметры `usecols`,  `parse_dates` и `dtype`.


Датафрейм должен содержать:
- колонки `price`, `year`, `posting_date`;
- `posting_date` в datatime-формате;
- `price` в вещественном формате;
- `year` в целочисленном формате.

Возможно, вы столкнётесь с ошибкой при считывании года в виде целого числа. Подробнее о том, как бороться с этой ошибкой, можно узнать в документации по `обнуляемому целочисленному типу данных`:
- https://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html

*Подсказка:* Pandas может представлять целочисленные данные с возможными отсутствующими значениями, используя [arrays.IntegerArray](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.arrays.IntegerArray.html#pandas.arrays.IntegerArray) или его псевдонимы, которые вы сможете найти в документации.

In [None]:
# Ваш код здесь

2. Выведите информацию о датафрейме, чтобы убедиться, что признаки при загрузке преобразовались верно.


In [None]:
# Ваш код здесь

3. Для первой записи в датафрейме извлеките из `posting_date` и выведите номер месяца.


In [None]:
# Ваш код здесь