# Импорты

In [15]:
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('dark_background')

# Предобработка

In [16]:
df = pd.read_csv('data/autostory_data_example.csv', sep=';', encoding='cp1251')
df.head(3)

Unnamed: 0,Дата,Процент попадания данных из источника 1 в итоговый отчет,Процент попадания данных из источника 2 в итоговый отчет,Процент попадания данных из источника 3 в итоговый отчет,Процент попадания данных из хотя бы одного источника данных в итоговый отчет,"Среднее количество записей из источника 1, попавшее в отчет (только для отчетов с данными из источника 1)","Среднее количество записей из источника 2, попавшее в отчет (только для отчетов с данными из источника 2)","Среднее количество записей из источника 3, попавшее в отчет (только для отчетов с данными из источника 3)","Среднее количество записей из любого источника, попавших в отчет (только для отчетов с данными хотя бы из одного источника)"
0,01.07.2024,275,388,54,496,1321,1523,1185,2052
1,02.07.2024,268,389,57,495,1333,1511,12,2048
2,03.07.2024,26,38,6,486,1303,1508,1201,2025


In [17]:
df.columns

Index(['Дата', 'Процент попадания данных из источника 1 в итоговый отчет',
       'Процент попадания данных из источника 2 в итоговый отчет',
       'Процент попадания данных из источника 3 в итоговый отчет',
       'Процент попадания данных из хотя бы одного источника данных в итоговый отчет',
       'Среднее количество записей из источника 1, попавшее в отчет (только для отчетов с данными из источника 1)',
       'Среднее количество записей из источника 2, попавшее в отчет (только для отчетов с данными из источника 2)',
       'Среднее количество записей из источника 3, попавшее в отчет (только для отчетов с данными из источника 3)',
       'Среднее количество записей из любого источника, попавших в отчет (только для отчетов с данными хотя бы из одного источника)'],
      dtype='object')

In [18]:
df.shape

(319, 9)

In [19]:
df.isna().sum()

Дата                                                                                                                           0
Процент попадания данных из источника 1 в итоговый отчет                                                                       0
Процент попадания данных из источника 2 в итоговый отчет                                                                       0
Процент попадания данных из источника 3 в итоговый отчет                                                                       0
Процент попадания данных из хотя бы одного источника данных в итоговый отчет                                                   0
Среднее количество записей из источника 1, попавшее в отчет (только для отчетов с данными из источника 1)                      0
Среднее количество записей из источника 2, попавшее в отчет (только для отчетов с данными из источника 2)                      0
Среднее количество записей из источника 3, попавшее в отчет (только для отчетов с данными из исто

## Сортировка по дате

In [20]:
df['Дата'] = pd.to_datetime(df['Дата'], format='%d.%m.%Y')

In [21]:
df = df.sort_values("Дата")

## Перевод в числа

In [22]:
cols = ['Процент попадания данных из источника 1 в итоговый отчет',
       'Процент попадания данных из источника 2 в итоговый отчет',
       'Процент попадания данных из источника 3 в итоговый отчет',
       'Процент попадания данных из хотя бы одного источника данных в итоговый отчет',
       'Среднее количество записей из источника 1, попавшее в отчет (только для отчетов с данными из источника 1)',
       'Среднее количество записей из источника 2, попавшее в отчет (только для отчетов с данными из источника 2)',
       'Среднее количество записей из источника 3, попавшее в отчет (только для отчетов с данными из источника 3)',
       'Среднее количество записей из любого источника, попавших в отчет (только для отчетов с данными хотя бы из одного источника)']

In [23]:
for col in cols:
    df[col] = df[col].str.strip().str.replace(',', '.').astype(float)

## Выделение частей даты

In [24]:
# Год
df['year'] = df['Дата'].dt.year

# Месяц
df['month'] = df['Дата'].dt.month

# День
df['day'] = df['Дата'].dt.day

# День недели (0 - понедельник, 6 - воскресенье)
df['weekday'] = df['Дата'].dt.weekday

In [25]:
df.dtypes

Дата                                                                                                                           datetime64[ns]
Процент попадания данных из источника 1 в итоговый отчет                                                                              float64
Процент попадания данных из источника 2 в итоговый отчет                                                                              float64
Процент попадания данных из источника 3 в итоговый отчет                                                                              float64
Процент попадания данных из хотя бы одного источника данных в итоговый отчет                                                          float64
Среднее количество записей из источника 1, попавшее в отчет (только для отчетов с данными из источника 1)                             float64
Среднее количество записей из источника 2, попавшее в отчет (только для отчетов с данными из источника 2)                             float64
Средне

## Переименование колонок

In [26]:
df.head()

Unnamed: 0,Дата,Процент попадания данных из источника 1 в итоговый отчет,Процент попадания данных из источника 2 в итоговый отчет,Процент попадания данных из источника 3 в итоговый отчет,Процент попадания данных из хотя бы одного источника данных в итоговый отчет,"Среднее количество записей из источника 1, попавшее в отчет (только для отчетов с данными из источника 1)","Среднее количество записей из источника 2, попавшее в отчет (только для отчетов с данными из источника 2)","Среднее количество записей из источника 3, попавшее в отчет (только для отчетов с данными из источника 3)","Среднее количество записей из любого источника, попавших в отчет (только для отчетов с данными хотя бы из одного источника)",year,month,day,weekday
0,2024-07-01,27.5,38.8,5.4,49.6,1.321,1.523,1.185,2.052,2024,7,1,0
1,2024-07-02,26.8,38.9,5.7,49.5,1.333,1.511,1.2,2.048,2024,7,2,1
2,2024-07-03,26.0,38.0,6.0,48.6,1.303,1.508,1.201,2.025,2024,7,3,2
3,2024-07-04,26.2,37.9,5.7,48.3,1.339,1.518,1.214,2.061,2024,7,4,3
4,2024-07-05,26.5,37.8,5.5,48.4,1.323,1.522,1.224,2.054,2024,7,5,4


In [27]:
df.columns = ['date', 'accuracy_1_%', 'accuracy_2_%', 'accuracy_3_%', 'accuracy_all_%', 
              'accuracy_1_avg', 'accuracy_2_avg', 'accuracy_3_avg', 'accuracy_all_avg', 
              'year', 'month', 'day', 'weekday']

**Columns info**

- accuracy_`n`_% - Процент попадания данных из источника `n` в итоговый отчет
- accuracy_`n`_avg - Среднее количество записей из источника `n`, попавшее в отчет (только для отчетов с данными из источника `n`)
  - all - показатель по всем источникам


In [28]:
df.to_csv('data/clean_data.csv', encoding='utf-8', index=False)