# Обработка датасета


В данной тетрадке будут выполнены следующие шаги:

1. Проверка данных на дубликаты, пропуски, типы данных и аномалии.
2. Предобработка данных при необходимости.
3. Разделение учеников на 'волны' в зависимости от времени их присоединения к курсу.

### Импорт библиотек и загрузка данных

```python
import pandas as pd

# Загрузка датасета
data = pd.read_csv('student_course_data.csv')
data.head()
```


### 1. Проверка на дубликаты и их удаление

```python
# Проверка на дубликаты
duplicates = data.duplicated().sum()
print(f'Количество дубликатов: {duplicates}')

# Удаление дубликатов, если они есть
if duplicates > 0:
    data = data.drop_duplicates()
```


### 2. Проверка на пропуски и их обработка

```python
# Проверка на пропуски
missing_values = data.isnull().sum()
print('Пропущенные значения в каждом столбце:')
print(missing_values[missing_values > 0])

# Обработка пропусков (зависит от структуры данных)
# Например, замена пропусков на дефолтные значения или удаление строк
data = data.fillna({'subject_name': 'Неизвестно', 'user_city': 'Неизвестно'})
```


### 3. Проверка типов данных и преобразование

```python
# Проверка типов данных
print(data.dtypes)

# Преобразование типов данных для дат, если необходимо
data['course_start_date'] = pd.to_datetime(data['course_start_date'], errors='coerce')
data['course_open_date'] = pd.to_datetime(data['course_open_date'], errors='coerce')
```


### 4. Обнаружение и обработка аномальных значений

```python
# Поиск аномальных значений, например, отрицательные или странные даты
data = data[(data['course_open_date'] >= data['course_start_date']) | (data['course_open_date'].isnull())]
```


### 5. Разделение учеников на волны

```python
# Функция для определения волны
def determine_wave(row):
    delta_days = (row['course_open_date'] - row['course_start_date']).days
    if delta_days <= 0:
        return '0 волна'
    elif delta_days <= 7:
        return '1 волна'
    elif delta_days <= 14:
        return '2 волна'
    elif delta_days <= 21:
        return '3 волна'
    elif delta_days <= 28:
        return '4 волна'
    else:
        return '5 волна'

# Применение функции к каждому ученику
data['wave'] = data.apply(determine_wave, axis=1)

# Результат
data[['user_id', 'course_id', 'wave']].head()
```
