**Импорт всех необходимых библиотек**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
pd.set_option("display.max_rows", 20)
pd.set_option("display.max_columns", 20)
pd.set_option("display.precision", 4)
pd.set_option("plotting.backend", "matplotlib")

# 1. Исследовательский анализ данных (exploratory data analysis - EDA)

## 1.1 Словесное описание признаков

<b><p>data.csv</p></b>
<ul>
<li>id: id транзакции </li>
<li>timestamp: дата продажи (транзакции) </li>
<li>full_sq: общая площадь  </li>
<li>life_sq: жилая площадь  </li>
<li>floor: этаж  </li>
<li>max_floor: количество этажей в здании </li>
<li>material: материал, из которого изговолены стены  </li>
<li>build_year: год строительства </li>
<li>num_room: количество жилых комнат </li>
<li>kitch_sq: площадь кухни </li>
<li>full_all: количество населения в регионе </li>
<li> state: жилищные условия </li>
<li>sub_area: название территории </li>
<li>price_doc: цена квартиры (целевая переменная) </li>
</ul>

<b><p>macro.csv</p></b>
<ul>
<li>timestamp : дата, на которую актуальны макроэкономические показатели </li>
<li>salary : средняя зарплата в регионе </li>
<li>fixed_basket: стоимость потребительской корзины </li>
<li>rent_price_3room_eco: стоимость аренды 3-х комнатного жилья эконом-класса </li>
<li>rent_price_2room_eco: стоимость аренды 2-х комнатного жилья эконом-класса </li>
<li>rent_price_1room_eco: стоимость аренды 1-но комнатного жилья эконом-класса </li>
<li>average_life_exp: средняя продолжительность жизни в регионе </li>
</ul>

## 1.2 Загрузка данных общее описание набора данных

In [3]:
PATH_base = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data.csv"
PATH_add = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data_macro.csv"
df = pd.read_csv(PATH_base)
macro =  pd.read_csv(PATH_add)

0        2013-05-21
1        2013-05-25
2        2013-05-27
3        2013-05-27
4        2013-05-28
            ...    
18861    2014-08-15
18862    2012-11-19
18863    2011-11-25
18864    2015-01-21
18865    2012-03-29
Name: timestamp, Length: 18866, dtype: object

### 1.2.1 Базовый датасет

Вывести пример данных (первые строки и случайные строки)

In [9]:
print('Head')
display(df.head())

print('Random')
display(df.sample(5))

Head


Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
0,8059,2013-05-21,11,11.0,2.0,3.0,5.0,2.0,1907.0,1.0,12.0,75377,Hamovniki,2750000
1,8138,2013-05-25,53,30.0,10.0,3.0,16.0,1.0,1980.0,2.0,8.0,68630,Lianozovo,9000000
2,8156,2013-05-27,77,41.0,2.0,1.0,17.0,6.0,2014.0,3.0,12.0,9553,Poselenie Voskresenskoe,7011550
3,8157,2013-05-27,45,27.0,6.0,3.0,9.0,1.0,1970.0,2.0,6.0,78616,Severnoe Butovo,7100000
4,8178,2013-05-28,38,20.0,15.0,,16.0,1.0,1982.0,1.0,8.0,112804,Filevskij Park,6450000


Random


Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
4895,15563,2014-02-28,37,,8.0,1.0,17.0,4.0,2017.0,1.0,1.0,132349,Novo-Peredelkino,3623354
16847,30448,2015-06-27,47,47.0,19.0,1.0,25.0,1.0,2016.0,1.0,1.0,112804,Filevskij Park,10139368
4436,15017,2014-02-14,38,20.0,7.0,3.0,12.0,1.0,1994.0,1.0,8.0,165727,Mar'ino,6600000
13544,26269,2014-12-11,45,29.0,4.0,3.0,9.0,1.0,1975.0,2.0,6.0,1318695,Vyhino-Zhulebino,7100000
2674,12884,2013-12-07,63,39.0,5.0,2.0,9.0,1.0,1970.0,3.0,8.0,12327,Gol'janovo,1000000


IndexError: .iloc requires numeric indexers, got ['full_sq']

Размер набора данных

In [None]:
print('df size: ', df.size)
print('df shape: ', df.shape)

print('macro size: ', macro.size)
print('macro shape: ', macro.shape)

Описание типов данных по признакам

In [None]:
df.info()

# Описание
id - числовой идентификатор

timestamp - дата продажи в формате YYYY-MM-DD

full_sq - общая жилая площадь целочисленная

life_sq: жилая площадь в формате с плавающей точкой, есть пропуски

floor: этаж в формате с плавающей точкой, есть пропуски

state: жилищные условия категориальная величина в формате с плавающей точкой, есть пропуски

max_floor: количество этажей в здании в формате с плавающей точкой, есть пропуски

material: материал, из которого изговолены стены, категориальная величина в формате с плавающей точкой, есть пропуски

build_year: год строительства, величина в формате с плавающей точкой, но предствавлена как object, видимо есть примеси, также есть 
пропуски

num_room: количество жилых комнат, величина в формате с плавающей точкой, есть пропуски

kitch_sq: площадь кухни, величина в формате с плавающей точкой, есть пропуски

full_all: количество населения в регионе, величина целочисленная

sub_area: название территории, представлено как object, но по факту строка

price_doc: цена квартиры (целевая переменная), целочисленная

Базовые статистики по признакам

In [None]:
from pandas import DataFrame

print("numerical features")
display(df.describe())

print("object features")
df.describe(include=[object])

Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

id - идут не по порядку, пропусков нет

full_sq - большая часть квартир имеет не большую площадь ~ 50 метров, есть либо пропуски, либо недвижимость без жилищной площади. Максимальное в ~100 раз превышает среднее и медиану

life_sq - в среднем меньше общей площади ~18-20 метров
floor - в основном покупают квартиры 6-8 этаже, есть информация о продаже небоскребов

state - есть 4 категории, возможно есть ошибка тк максимальное значение 33

max_floor - по какой-то причине есть продажа на 77 этаже, но максимальный этаж в проданном доме 57

material - категориальная величина, большая часть домов построена из материала по категорией 1

num_room - большая часть продаж приходится на 1/2/3 комнатные

kitch_sq - небольшой межинтервальный размах, но очень большое стандартное отклонение, возможно очень много выбросов

full_all - информация о продажа собрана в небольших регионах с население в среднем до 500 тысяч

price_doc - большая часть квартир стоит около 5-10 млнов

timestamp - возможно данные представлены за 3 года

build_year - большая часть домов была построена в 2014 году

sub_area - Nekrasovka - самый частый пункт продажи квартир

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

Площадь жилая и общая - тк прямопропорционально влияет на цену

Количество комнат - прямопропорционально влияет на цену, тк чем больше комнат тем обычно больше площадь

год постройки - чем новее тем дороже, старые дома ценятся хуже

этаж - есть мнение что с 4-6 этаж лучше воздух и меньше шума, нужно проверить эту гипотезу

площадь кухни - гипотеза, площадь кухни прямопрапорционально влияет на цену

регион - в пунктах с большим населением, цена выше

timestamp - из-за инфляции чем позже была куплена тем выше цена в абсолютном значении

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [None]:
for column in df.columns:
    print(f'{column} skips: ', df[column].shape[0] - df[column].dropna().shape[0])

Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

In [None]:
print(df.full_sq.max() - df.life_sq.max()) # Жилищная площадь превышает общую площадь
print(df.kitch_sq.max()) # Очень большая площадь кухни
print(df.num_room.min()) # Помещение без комнат, возможно подсовки
print(df.state.value_counts()) # Есть выброс категория 33
print(df.full_sq.min()) # Есть помещения без прощади

### 1.2.2 Макро показатели

Вывести пример данных (первые строки и случайные строки)

In [None]:
display(macro.head())
display(macro.sample(5))

Размер набора данных

In [None]:
display(macro.shape)
display(macro.size)

Описание типов данных по признакам

In [None]:
macro.info()

Базовые статистики по признакам

In [None]:
print('numerical features: ')
display(macro.describe())
print('object features: ')
macro.describe(include=[object])

Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

Salary - без особых выбросов, похоже на нормальное распределение

fixed_basket - В среднем составляет треть от зарплаты, без особых выбросов

rent_price_3room_eco - похоже, что указано в e-3 степени. Небольшое отлокнение. Соответствует рыночной конъюктуре

rent_price_2room_eco - есть выброс в минимальном значении. Соответствует рыночной конъюктуре

rent_price_1room_eco - похожее на выброс минимальное значение. Соответствует рыночной конъюктуре

average_life_exp - очень кучное распределение. Без выбросов

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

### Кажется здесь опечатка в вопросе

Salary - от средней зарплаты зависит цена аренды квартир и продолжительность жизни

fixed_basket - растет при росте salary

rent_price_3room_eco, rent_price_2room_eco, rent_price_1room_eco - гипотеза, стоимость аренды прямо кореллируем с зарплатой в регионе

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [None]:
for column in macro.columns:
    if skips := macro[column].shape[0] - macro[column].dropna().shape[0]:
        print(f'{column} skips: ', skips)

Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

In [None]:
macro.rent_price_2room_eco.min() # Выброс или ошибочное значение
# Остальные показатели находятся в границах своих распределений

## 1.3 Замените все ранее найденные ошибочные данные на None. Заполните все пропуски в данных: которые были и которые появились. Используйте как стратегии изученные на занятии, так и логику, которая вытекает из самих данных

### 1.3.1 Главный набор данных

In [None]:
def fill_by_median(data: pd.DataFrame, feature: str):
    mean = data[feature].median()    
    data.loc[data[feature].isna(), feature] = mean
    
# Verification
def verify_data_frame(*, df: pd.DataFrame, df_name: str):
    if skips_info := verify_skips(df):
        for column, skips in skips_info:
            print(f'Data frame \'{df_name}\' contains {skips} skips in column {column}')
    else:
        print(f'There are no skips in data frame {df_name}')

def verify_skips(data: pd.DataFrame):
    skips = []
    for column in data:
        mask = data[column].isna()
        if number_of_skips := data[mask][column].shape[0]:
            skips.append((column, number_of_skips))
    
    return skips


In [None]:
df_copy = df.copy()

df_copy.build_year = pd.to_numeric(df_copy.build_year, errors='coerce')

columns_to_fill = []
for column in df_copy.columns:
    if skips := df_copy[column].shape[0] - df_copy[column].dropna().shape[0]:
        columns_to_fill.append(column)
        print(f'{column} skips: ', skips)

for column in columns_to_fill:
    df_copy.loc[df_copy[column].isna(), column] = np.nan
    
# numerical feature filling
for feature in columns_to_fill:
    fill_by_median(df_copy, feature)

print('')
verify_data_frame(df=df, df_name='source')
print('')
verify_data_frame(df=df_copy, df_name='cleaned copy')

### 1.3.2 Набор с макропоказателями

#### Заполнение через предыдущий или последующий элемент, тк данные отсортированы и представляют собой

In [None]:
def fill_by_adjacent(data: pd.DataFrame, feature: str):
    data[column] = data[column].fillna(method='bfill')
    
    mask = data[column].isna()
    if data[mask][column].shape[0]:
        data[column] = data[column].fillna(method='ffill')

In [None]:
macro_copy = macro.copy()

# verify that data frame is sorted by date
macro_copy.timestamp = pd.to_datetime(macro_copy.timestamp)
macro_copy.sort_values(by='timestamp')

columns_to_fill = []
for column in macro_copy.columns:
    mask = macro_copy[column].isna()
    if skips := macro_copy[mask][column].shape[0]:
        columns_to_fill.append(column)
        print(f'{column} skips: ', skips)

for column in columns_to_fill:
    fill_by_adjacent(macro_copy, column)

print('origin data frame verification: ')
verify_data_frame(df=macro, df_name='source')
print('cleaned data frame verification: ')
verify_data_frame(df=macro_copy, df_name='cleaned macro')


## 1.4 Обогатите основной набор данных данными из макропоказателей и поместите в переменную `df_full`

In [None]:
df_copy.timestamp = pd.to_datetime(df_copy.timestamp) # macro_copy.timestamp уже с нужным типом
df_full = df_copy.merge(macro_copy, on='timestamp', how='left')
df_full

## 1.5 Проверьте данные на наличие выбросов. По каждому столбцу. Напишите своё мнение: нужно ли в каждой из ситуаций обрабатывать выбросы, или можно оставить. Если нужно обработать, то примените один из изученных подходов, либо предложите свой

### 1.5.1 Главный набор данных

In [None]:
def draw_boxplot(data: DataFrame, exclude=None):
    exclude = exclude or set()
    for column in data.columns:
        if (column in exclude) or (column == 'id'):
            continue

        feature = data[column]
        if feature.dtype in [np.int_, np.float_]:
            sns.boxplot(feature)
            plt.legend(labels=[column])
            plt.yscale('log')
            plt.show()

In [None]:
draw_boxplot(df_copy)
# full_sq, life_sq - определенно обладает выбросами которые хотелось бы `сгладить`
# floor, max_floor - обладает выбросами, гипотетически предполагаю что их можно оставить
# state - выглядит как единичная ошибка в наборе данных
# material - выглядит особенность данных, которую не нужно воспринимать как выброс
# build_year - ошибочные данные, их стоит исправить
# num_room, kitch_sq - нужно обработать выбросы
# price_doc - стоит обработать выбросы

# Smoothing

In [None]:
def smooth_by_quartile(data: DataFrame, feature: str):
    q1 = data[column].quantile(.25)
    q3 = data[column].quantile(.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    data[column] = np.where(data[column] < lower_bound, lower_bound, data[column])
    data[column] = np.where(data[column] > upper_bound, upper_bound, data[column])

columns_to_smooth = set(['full_sq', 'life_sq', 'kitch_sq', 'price_doc', 'build_year'])
columns_to_exclude = set(df_copy.columns).difference(columns_to_smooth)
for column in df_copy[list(columns_to_smooth)].columns:
    smooth_by_quartile(df_copy, column)

# Verify
draw_boxplot(df_copy, exclude=columns_to_exclude)


### 1.5.2 Набор с макропоказателями

In [None]:
draw_boxplot(macro_copy)
# salary, fixed_basket, average_life_exp, rent_price_3room_eco - не наблюдаю выбросы
# rent_price_2room_eco, rent_price_1room_eco - есть странные выбросы, которые можно удалить 
#   или прировнаять к соответствующим значениям Q1 и Q3

# Smoothing macro

In [None]:
columns_to_smooth = set(['rent_price_2room_eco', 'rent_price_1room_eco'])
columns_to_exclude = set(macro_copy.columns).difference(columns_to_smooth)
for column in macro_copy[list(columns_to_smooth)].columns:
    smooth_by_quartile(macro_copy, column)

# Verify
draw_boxplot(macro_copy, exclude=columns_to_exclude)

## 1.6 Создайте не менее 5 новых признаков на основе существующих данных. Опишите текстом обоснование создания каждой. Признаки должны привносить некую новую информацию для понимания цены квартиры

In [None]:
df_full['average_rent_price'] = (
    df_full['rent_price_3room_eco'] +
    df_full['rent_price_2room_eco'] +
    df_full['rent_price_1room_eco']
) / 3

df_full['life_square_ratio'] = (
    df_full['life_sq'] / df_full['full_sq'] * 100
)

df_full['number_of_salaries_to_buy_apartment'] = df_full['price_doc'] / df_full['salary']

df_full['square_meter_price'] = df_full['price_doc'] / df_full['full_sq']

exclude_list = ['num_room', 'state']

for column in df_full.columns:
    if df_full[column].dtype not in [np.int_, np.float_]:
        continue
    if column in exclude_list:
        continue
    
    smooth_by_quartile(df_full, column)
    
def smooth_by_mode(df: DataFrame, columns: list[str]):
    for column in columns:
        q1 = df[column].quantile(.25)
        q3 = df[column].quantile(.75)
        iqr = q3 - q1
        lower_bound = q1 - 1.5 * iqr
        upper_bound = q3 + 1.5 * iqr
        df[column] = np.where(df[column] < lower_bound, df[column].mode(), df[column])
        df[column] = np.where(df[column] > upper_bound, df[column].mode(), df[column])

smooth_by_mode(df_full, ['state'])

df_full['novelty_of_building'] = pd.cut(df_full['build_year'], 
                                        bins=4, 
                                        labels=['very old', 'old', 'modern', 'new'])

# average_rent_price - средняя цена аренды квартиры, должно прямопропорционально влиять на цену
# life_square_ratio - коэффициент жилой площади, полезен чтобы судить о типе помещения и формировать об этом цену
# number_of_salaries_to_buy_apartment - количество зарплат, чтобы купить этот апартамент
# square_meter_price - полезно для анализа цены
# novelty_of_building - категориальная величина позволяющая судить о новизне постройки

df_full.sample(10)

## 1.7 Провести визуальный анализ всех признаков

Ко всем графикам писать выводы текстом. Что вы видите, почему построили именно такую диаграмму

### 1.7.1 Анализ признаков по отдельности (где нужно делать группировки, преобразования категориальных типов данных к числовым, смотреть в разрезе других категориальных признаков)

In [None]:
gr = df_full.groupby('num_room')['price_doc'].mean()
fig, ax = plt.subplots(figsize=(15, 5))
ax.set_yscale('log')
ax.set_title(('Средняя стоимость жилья в зависимости от количества комнат'))
ax.set_xlabel('Количество комнат')
ax.set_ylabel('Стоимость')
ax.plot(gr)

In [None]:
mask = (df_full['num_room'] >= 1) & (df_full['num_room'] <= 5)
plt.hist(df_full[mask]['num_room'], bins=5)

## Промежуточный вывод, стоит сфокусировать рассмотрение цен в зависимости от комнат в срезе от 1 до 5 комнат
Так как остальные квартиры размывают основную часть квартир

In [None]:
gr = df_full[mask].groupby('num_room')['price_doc'].agg(['mean', 'median'])
fig, (ax1, ax2) = plt.subplots(nrows=1, ncols=2, figsize=(20, 5))

ax1.set_title(('Средняя стоимость жилья в зависимости от количества комнат'))
ax1.set_xlabel('Количество комнат')
ax1.set_ylabel('Стоимость')
ax1.set_xticks(gr.index)
ax1.scatter(gr.index, gr['mean'])

ax2.set_title(('Медианная стоимость жилья в зависимости от количества комнат'))
ax2.set_xlabel('Количество комнат')
ax2.set_ylabel('Стоимость')
ax2.set_xticks(gr.index)
ax2.scatter(gr.index, gr['median'])

## Выводы:
## Можем наблюдать, что средняя цена в пределах от одной до 5 комнатной квартиры растет практически линейно
## А медианная цена для 4-х комнатной практически такая же как для 5 комнатной, возможно поэтому стоит сфокусировать анализ на 1-4 комнатных, тк на наиболее востребованные

In [None]:
df_full_masked = df_full[mask].copy()
bins_count = int((df_full_masked['build_year'].max() - df_full_masked['build_year'].min()) // 5)
df_full_masked['year_range'] = pd.cut(df_full_masked['build_year'], bins_count)

year_gr = df_full_masked.groupby('year_range')['price_doc'].agg(['mean', 'median'])
display(year_gr)
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(15, 10))

for index, column in enumerate(year_gr.columns):
    axes[index].plot(year_gr.index.to_series().apply(lambda x: x.left), year_gr[column])
    axes[index].set_title(('Средняя' if index == 0 else 'Медианная') + ' цена взависимости от года постройки')
    
# Есть какие-то странные выбросы в стоимости домов построенных в период с 1920 - 1955
# В целом средня цена за дома построенные в период 2000, выше на 0.5-1.5 пункта, чем на дома построенные в период 1960-1990

### 1.7.2 Анализ совместного влияния признаков и их влияния на целевой признак

In [None]:
df_full.plot.scatter(x='num_room', y='price_doc')
ax = plt.gca()
ax.set_title('Зависимость цены от кол-ва комнат')
# В диапоазоне от 1 до 4 комнатной цена сильно варьируется, возможно это связано с выбрасами цены, но это целевой параметр который не хочется менять

df_full[mask].plot.scatter(x='life_square_ratio', y='square_meter_price') # Слишком кучные данные, не прослеживается связь
ax = plt.gca()
ax.set_title('Зависимость цены кв.метра от процента жилой площади')

fig, axes = plt.subplots()
h = axes.hist2d(
    x=df_full[mask]['life_square_ratio'],
    y=df_full[mask]['square_meter_price'],
    bins=25,
)
fig.colorbar(h[3], ax=axes)
axes.set_title('Зависимость цены кв.метра от процента жилой площади')

In [None]:
plt.figure(figsize=(15, 15))
numeric_data = df_full.select_dtypes(np.number)
sns.heatmap(numeric_data[mask].corr(), cmap="YlGnBu")

### Выводы по матрице корреляции:
#### Цена прямопропорциональна общей и жилой площади квартиры
#### Количество комнат влияет на цену практически линейно
#### Цена квадратного метра имеет прямую корреляцию с категориальным признаком `state`
#### Ожидание продолжительности жизни влияет на уровень зарплат и потребительскую корзину, нужно посмотреть в разрезе цен на жилье, полагаю есть связь

In [None]:
df_full[mask].groupby('state')['price_doc'].mean().plot()
ax = plt.gca()
ax.set_title('Зависимость цены жилье от состояния жилья') # Явная корреляция с категориальным признаком state

## Проверим гипотезу влияет ли средняя продолжительность жизни на цену жилья

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(nrows=1, ncols=3, figsize=(15,5))
ax1.plot(df_full.groupby('average_rent_price')['price_doc'].mean()) # Явного тренда нет
ax1.set_title('rent_price to doc_price')

ax2.plot(df_full.groupby('average_life_exp')['price_doc'].mean()) # Есть прямая линейная зависимость
ax2.set_title('life expecation to doc_price')

ax3.plot(df_full.groupby('average_life_exp')['salary'].mean()) # Объясняет предыдущую зависимость, в принципе очевидную
ax2.set_title('life expecation to salary')

In [None]:
grouped_by_date = df_full.groupby([pd.Grouper(key='timestamp', freq="1M"), 
                                   pd.Grouper(key='state')])['price_doc'].agg(['mean', 'median'])
grouped_by_date = grouped_by_date.reset_index()

fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(12,8))
line_plot_mean = sns.lineplot(data=grouped_by_date,
                         x='timestamp',
                         y='mean',
                         hue='state',
                         ax=axes[0])

line_plot_median = sns.lineplot(data=grouped_by_date,
                         x='timestamp',
                         y='median',
                         hue='state',
                         ax=axes[1])

for plot in (line_plot_mean, line_plot_median):
    plot.set_xlabel('Дата')
    plot.set_ylabel('Средняя цена')
    plot.xaxis.set_tick_params(rotation=30)
    plot.grid(True)

# Средняя и медиана цена очень сильно скачет для квартир с состоянием `4`.
# Возможно Стоит исключить эти квартиры из анализа. Или анализировать их отдельно
# В целом видно что циклически цены падают и растут, но в основном виден небольшой рост в районе 5-7% за год.

# Общий вывод:
По ощущениям в последнем пункте нужно было найти какую-то жемчужину, с чем я не справился.
Визуализация кажется очень сложной и не имеющей четких правил механикой

Также во время работы над последним пунктом заметил также ошибки с сглаживанием значений категориальных столбцов и исправил их, в целом хочется углубляться в это

In [None]:
group_by_date_state = df_full[mask].pivot_table(
    values='price_doc',
    index='timestamp',
    columns=['state'],
    aggfunc='mean'
)
group_by_date_state.fillna(0, inplace=True)
columns_as_series = [group_by_date_state.loc[:, column] for column in group_by_date_state.columns]

fig, ax = plt.subplots(figsize=(12, 7))
ax.stackplot(
    group_by_date_state.index[::20],
    list(map(lambda s: s[::20], columns_as_series)),
    labels=group_by_date_state.columns
)
ax.legend()
fig.suptitle('Средняя цена взависимости от состояния')