# Аномалии и выбросы

Продолжим работу с  набором данных с подержанными автомобилями, чтобы познакомиться с решением задачи нахождения выбросов. 

Импортируем pandas.

In [1]:
import pandas as pd

Загрузим датасет, с которым мы работали ранее, из файла `df_types.csv`.

In [2]:
df_types = pd.read_csv('C:/Users/felix/18/df_types.csv')
df_out = df_types.copy()
df_out.head()

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,title_status,transmission,image_url,description,state,lat,long,posting_date,price_category,date
0,7308295377,https://chattanooga.craigslist.org/ctd/d/chatt...,chattanooga,https://chattanooga.craigslist.org,54990,2020.0,ram,2500 crew cab big horn,diesel,27442,clean,other,https://images.craigslist.org/00N0N_1xMPvfxRAI...,Carvana is the safer way to buy a car During t...,tn,35.06,-85.25,2021-04-17T12:30:50-0400,high,2021-04-17 16:30:50+00:00
1,7316380095,https://newjersey.craigslist.org/ctd/d/carlsta...,north jersey,https://newjersey.craigslist.org,16942,2016.0,ford,explorer 4wd 4dr xlt,,60023,clean,automatic,https://images.craigslist.org/00x0x_26jl9F0cnL...,***Call Us for more information at: 201-635-14...,nj,40.821805,-74.061962,2021-05-03T15:40:21-0400,medium,2021-05-03 19:40:21+00:00
2,7313733749,https://reno.craigslist.org/ctd/d/atlanta-2017...,reno / tahoe,https://reno.craigslist.org,35590,2017.0,volkswagen,golf r hatchback,gas,14048,clean,other,https://images.craigslist.org/00y0y_eeZjWeiSfb...,Carvana is the safer way to buy a car During t...,ca,33.779214,-84.411811,2021-04-28T03:52:20-0700,high,2021-04-28 10:52:20+00:00
3,7308210929,https://fayetteville.craigslist.org/ctd/d/rale...,fayetteville,https://fayetteville.craigslist.org,14500,2013.0,toyota,rav4,gas,117291,clean,automatic,https://images.craigslist.org/00606_iGe5iXidib...,2013 Toyota RAV4 XLE 4dr SUV Offered by: R...,nc,35.715954,-78.655304,2021-04-17T10:08:57-0400,medium,2021-04-17 14:08:57+00:00
4,7316474668,https://newyork.craigslist.org/lgi/cto/d/baldw...,new york city,https://newyork.craigslist.org,21800,2021.0,nissan,altima,gas,8000,clean,automatic,https://images.craigslist.org/00V0V_3pSOiPZ3Sd...,2021 Nissan Altima Sv with Only 8 K Miles Titl...,ny,40.6548,-73.6097,2021-05-03T18:32:06-0400,medium,2021-05-03 22:32:06+00:00


Продолжим исследовать уже известный признак с количеством пройденных миль транспортным средством. Выведем статистики по этому признаку.


In [3]:
df_out['odometer'].describe()

count    1.000000e+04
mean     9.567468e+04
std      8.647265e+04
min      0.000000e+00
25%      3.914725e+04
50%      8.900000e+04
75%      1.368750e+05
max      3.245000e+06
Name: odometer, dtype: float64

Не самое удобное отображение значений. Давайте укажем, чтобы отображалось только три знака после запятой. С методом `apply` и lambda-выражениями, которые мы использовали, вы познакомитесь позднее. 



In [4]:
df_out['odometer'].describe().apply(lambda x: f'{x:0.3f}')

count      10000.000
mean       95674.678
std        86472.655
min            0.000
25%        39147.250
50%        89000.000
75%       136875.000
max      3245000.000
Name: odometer, dtype: object

Видим, что средний пробег автомобиля равен почти 100 000 миль. 0,25-й квантиль, или 25-й перцентиль, так как отображён в процентах, равен 39 147, то есть для 25% автомобилей количество миль пробега не превысит данное значение, а 75-й перцентиль — 136 875.  

Также посчитать квантиль можно отдельно, с помощью метода `quantile`, передав границу вероятности.




In [5]:
df_out['odometer'].quantile(0.75)

136875.0

При этом максимальное значение выбивается из выборки почти на порядок и, вероятно, является выбросом. Найдём пороги для отнесения значения к выбросам.

Напишем функцию, вычисляющую границы, в которые должны попадать нормальные значения. Нижняя граница рассчитывается как разница между нижним квартилем и интерквартильным размахом, помноженным на 1,5, а верхняя — как сумма интерквартильного размаха и верхнего квартиля, умноженного на 1,5.




In [6]:
def calculate_outliers(data):
    q25 = data.quantile(0.25)
    q75 = data.quantile(0.75)
    iqr = q75 - q25
    boundaries = (q25 - 1.5 * iqr, q75 + 1.5 * iqr)

    return boundaries

Выведем  границы с помощью нашей функции.



In [7]:
boundaries = calculate_outliers(df_out['odometer'])
boundaries

(-107444.375, 283466.625)

Итого нормальные значения выборки должны быть от −107444.375 до 283466.625. У нас значения пробега в выборке больше нуля, но нижняя граница получилась отрицательная, что меньше минимального значения, поэтому среди минимальных значений выбросов нет.

Если посмотреть на статистики, то видно, что верхняя граница меньше максимального значения, поэтому как минимум одно значение является выбросом.

Давайте найдём все выбросы. 
Запишем в переменную `is_outlier` информацию о том, какие значения меньше нижней границы или больше верхней.



In [8]:
is_outlier = (df_out['odometer'] < boundaries[0]) | (df_out['odometer'] > boundaries[1])
is_outlier

0       False
1       False
2       False
3       False
4       False
        ...  
9995    False
9996    False
9997    False
9998    False
9999    False
Name: odometer, Length: 10000, dtype: bool

Посчитаем количество таких значений.



In [9]:
is_outlier.sum()

91

In [10]:
is_outlier.sum() / len(df_out)

0.0091

Доля выбросов меньше 1%, что неплохо.
Выведем строки с предполагаемыми выбросами.




In [11]:
df_out[is_outlier]

Unnamed: 0,id,url,region,region_url,price,year,manufacturer,model,fuel,odometer,title_status,transmission,image_url,description,state,lat,long,posting_date,price_category,date
27,7311516735,https://easttexas.craigslist.org/cto/d/lufkin-...,tyler / east TX,https://easttexas.craigslist.org,17000,2003.0,dodge,3500,diesel,307000,clean,automatic,https://images.craigslist.org/00Q0Q_8WsRzpw9LV...,2003 Dodge 3500 4x4 diesel dually. It has 307k...,tx,31.270000,-94.646900,2021-04-23T14:27:25-0500,medium,2021-04-23 19:27:25+00:00
114,7310943842,https://showlow.craigslist.org/ctd/d/pinetop-2...,show low,https://showlow.craigslist.org,2795,2004.0,mazda,tribute,gas,999999,clean,automatic,https://images.craigslist.org/00y0y_9hjvC3qkk3...,ACCUSHINE AUTO SALES 1827 E. WHITE MTN. BLVD. ...,az,34.117500,-109.919700,2021-04-22T10:52:07-0700,low,2021-04-22 17:52:07+00:00
385,7306101528,https://desmoines.craigslist.org/ctd/d/windom-...,des moines,https://desmoines.craigslist.org,59950,2013.0,other,CATERPILLAR CT660S,diesel,345256,clean,automatic,https://images.craigslist.org/00I0I_UkoGuDPqYZ...,LA MOTORSPORTS DIESELTRUCKSMN.COM 2013 CATERP...,ia,43.863689,-95.113792,2021-04-13T08:34:24-0500,high,2021-04-13 13:34:24+00:00
444,7304168190,https://elpaso.craigslist.org/ctd/d/las-cruces...,el paso,https://elpaso.craigslist.org,16999,2016.0,jeep,renegade,gas,999999,clean,automatic,https://images.craigslist.org/00Q0Q_ajHii9qB6e...,"‘16 Jeep Renegade Limited, auto, air, power wi...",tx,32.288990,-106.781616,2021-04-09T09:26:05-0600,medium,2021-04-09 15:26:05+00:00
552,7314722320,https://nh.craigslist.org/ctd/d/medford-2015-h...,new hampshire,https://nh.craigslist.org,26500,2015.0,other,HINO 268A,diesel,429194,clean,automatic,https://images.craigslist.org/01111_aEpkHS4iop...,"2015 HINO 268A 24' REFRIG NCDL 260 HP, ALLISIO...",nh,42.417300,-71.108700,2021-04-30T07:30:45-0400,high,2021-04-30 11:30:45+00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9157,7314148003,https://kansascity.craigslist.org/cto/d/lees-s...,"kansas city, MO",https://kansascity.craigslist.org,2999,2010.0,chevrolet,hhr ls,gas,344000,clean,automatic,https://images.craigslist.org/00n0n_h4YYCjZeD9...,2010 CHEVY HHR LS --- POWER LOCKS/WINDOWS/MIRR...,ks,38.851800,-94.394400,2021-04-28T20:15:49-0500,low,2021-04-29 01:15:49+00:00
9275,7313696556,https://mcallen.craigslist.org/cto/d/mcallen-2...,mcallen / edinburg,https://mcallen.craigslist.org,4500,2003.0,chevrolet,avalanche,gas,298968,clean,automatic,https://images.craigslist.org/00m0m_ey8pcui9d1...,Vendo mi Chevrolet Avalanche 2003 que está en ...,tx,26.215400,-98.235900,2021-04-27T23:10:38-0500,low,2021-04-28 04:10:38+00:00
9389,7306697432,https://knoxville.craigslist.org/cto/d/knoxvil...,knoxville,https://knoxville.craigslist.org,3550,2012.0,nissan,nv2500,gas,370000,clean,automatic,https://images.craigslist.org/00404_guoJBc6u6o...,Good running and driving van,tn,35.991800,-83.849600,2021-04-14T11:54:41-0400,low,2021-04-14 15:54:41+00:00
9500,7311709925,https://greatfalls.craigslist.org/cto/d/havre-...,great falls,https://greatfalls.craigslist.org,7000,2005.0,chevrolet,silverado,gas,290000,clean,automatic,https://images.craigslist.org/00808_hX52l6571o...,"2005 Chevy 1500 LS, has 290k miles on it but h...",mt,48.542862,-109.695310,2021-04-23T20:41:47-0600,low,2021-04-24 02:41:47+00:00


Можно внимательно изучить их, чтобы понять, есть ли какая-то зависимость между аномальным значением и другими признаками (тогда его стоит оставить для учёта этой аномалии) или это выброс.

Например, все автомобили с большим пробегом могут входить в низкую ценовую категорию или быть произведены очень давно, и поэтому год выпуска этих автомобилей будет находиться среди минимальных значений в выборке. Зависимости мы будем исследовать позднее, а сейчас заменим найденные выбросы. Если для пропущенных значений обычно выбирают средние значения, то для выбросов выбирают значения границ. Выбросы у нас только среди максимальных значений, поэтому заменим их верхним граничным значением. 


In [12]:
df_out.loc[is_outlier, 'odometer'] = int(boundaries[1])

Проверим, что получилось.



In [14]:
df_out['odometer'].describe()

count     10000.00000
mean      93324.13400
std       63181.17499
min           0.00000
25%       39147.25000
50%       89000.00000
75%      136875.00000
max      283466.00000
Name: odometer, dtype: float64

In [15]:
calculate_outliers(df_out['odometer'])

(-107444.375, 283466.625)

Максимум уменьшился и стал тем числом, которое мы задали. За счёт замены больших значений чуть меньшими уменьшилось и среднее.
А если посмотреть ещё раз на границы распределения, то мы увидим, что наша выборка теперь вписывается в эти границы.

In [16]:
df_out.to_csv('C:/Users/felix/18/df_out.csv', index=False)