<div class="alert alert-success">
    <h1>Структура проекта</h1>
</div>

## Оглавление
## Название проекта
- **Вступление**
    - краткое описание проекта
- **Цель исследования**
    - проверить гипотезы и т.п.
    - перечислить их с кратким описанием
- **Ход исследования**
    - где получили данные
    - какого они качества
    - что предстоит сделать
    - коротко описать этапы

## 1. Обзор данных
- Чтение данных
- Выводы о качестве данных (пропущенные значения и тп)
- Список столбцов с описанием (описать нарушения стиля)
- Краткая сводка о типе данных
- Выводы

## 2. Предобработка данных
- Пройтись по чек листу подробно комментируя шаги и код
- **Выводы**
    - описать найденные проблемы
    - описать их решение и плюсы

## 3. Обогащение данных


## 4. Проверка гипотез
- **Заголовок гипотезы**
    - описание гипотезы и ее цель
    - код
    - краткие выводы по шагам
    - общий вывод гипотезы


## 5. Итоги исследования / Оформление результатов исследования
- **Мы проверили гипотезы и установили**
    - 1 гипотеза - вывод
    - 2 гипотеза - вывод
    - 3 гипотеза - вывод
- **Общий вывод**

<div class="alert alert-success">
    <h1>Чек лист DS</h1>
</div>

## Обзор данных
- **Чтение файла**
    - использовать `try... except` для чтения
    - `pd.read_csv('path/filename.csv')`
    - `pd_read_excel('path/filename.xlsx', sheet_name='name')`
- **Обзор данных**
    - `display(df.head())`
    - `df.info()`
    - `df.dtypes`
    - `df.shape`
    - `df.columns`
    - `df.describe()`
- **При выводе DF выводить имя DF**
    - `df.name`

## Предобработка данных

### Разведка данных
- [**Стиль заголовков**](#rename_01) - `df.rename()` или `df.columns.str`
- **Подсчет пропусков**
    - подсчитать количество пропусков - `df.isna().sum()`
    - уникальные значения столбцов и их количество - `df['colname'].value_counts()`
- **Определение типа пропусков**

### Тип данных

- `df['colname'] = pd.to_numeric(df['colname'], errors='coerce')`
- `df['colname'] = df['colname'].astype('int')`
- `df['newcolname'] = pd.to_datetime(df['colname'], format='%d.%m.%YZ%H:%M:%S')`
- `df['newcolname'] = pd.DatetimeIndex(df['colname']).year`
- `df['newcolname'] = pd.DatetimeIndex(df['colname']).month`
- `df['newcolname'] = pd.DatetimeIndex(df['colname']).day`
- `df['newcolname'] = pd.DatetimeIndex(df['colname']).hour`
- `df['newcolname'] = pd.DatetimeIndex(df['colname']).second`

### Пропуски
- **Замена пропусков** - `df['colname'].fillna('value')`
- **Удаление пропусков** - `df.dropna(subset=['colname1', 'colname2'])`
- **Работа с пропусками в категориальных переменных** - `df.loc[df['colname'] == 'None', 'colname2'] = 'newvalue'`
- **Работа с пропусками в количественных переменных**
    - если требуется категоризировать тип пропусков - `category = df.loc[df.loc[:, 'colname'] = 'val']`
    - замена близких значений (возраст) с помощью среднего - `df['colname'].mean()`
    - замена значений с выбросами (зарплата) с помощью медианы - `df['colname'].median()`

### Аномалии
- **Определение странных значений**
    - использовать `try-except` для подсчета бракованных значений в цикле
    - использовать `try-except` для записи строк с ошибками




### Дубликаты

- **Поиск неявных дубликатов**
    - Проверить глазами - `df['colname'].sort_values().unique()`
    - Привести все символы в нижний регистр - `df['newcolname'] = df['colname'].str.lower()`
- **Замена дубликатов**
    - [Замена неявных дубликатов](#replace_duplicates_01) - `df['colname'].replace('wrong', right')`
    - Чистим сами значения внутри таблицы, делая NaN - `df['colname'] = df['colname'].drop_duplicates()`
    - Удалить эти строки - `df = df.dropna().reset_index(drop=True)`
- **Подсчет явных дубликатов** - `df.duplicated().sum()`
- **Удаление явных дубликатов** - `df.drop_duplicates().reset_index(drop=True)`

### Категоризация данных
- **Классификация по типу**
    - разделить табличку на кусочки - `df_new = df[['colname1','colname2']]`
    - создать табличку-словарь с уникальными значениями - `df_dict = df_new.drop_duplicates().reset_index(drop=True)`
    - дропнуть из оригинального ДатаФрейма лишние столбцы - `df.drop(['colname1', 'colname2'], inplace=True)`
- [**Категоризация данных**](#categorise_01)
    - написать функцию которая возвращает определенное значение в зависимости от условий - `def funcname(cell):`
    - создать новый столбец и применить написанную функцию - `df['newcolname'] = df['colname'].apply(funcname)`
    - по надобности написать функцию, которая принимает всю строку - `def funcname(row)`
    - функция может возвращать - `full_name = row['first_name'] + ' ' + row['last_name']`
    - или работать по условию - `if row['colname1'] == 'val' and row['colname2'] > val2:`
    - применить новую функцию к строке целиком - `df['newcolname'] = df.apply(funcname, axis=1)`
    - посчитать новые категории - `df['newcolname'].value_counts()`
- **Соединить данные**
    - `df_new = df1.merge(df2, on='colname', how='left')`
- **Создать сводные таблицы для наглядности**
    - `df_pivot = df.pivot_table(index=['colname1', 'colname2'], columns='colname3', values='colname4', aggfunc='sum')`
    - `df_pivot_with_reset_index = df_pivot.reset_index()`
    - `df_grouped = df.groupby(['colname1','colname2','colname3']).agg({'colname4':'sum'})`
    - `df_grouped['newcol'] = df['colname'] / val`




<div class="alert alert-success">
    <h1>Полезные приемы</h1>
</div>

- **Фильтрация данных**
    - `df[df['colname'] == 'val']`
    - `df[df['colname'] == 'val'].count()`
    - `df[df['colname'] == 'val']['colname'].count()`
    - `df[df['colname'] != 'val']` - избавиться от ненужного значения
- **Подсчет количества**
    - `df.groupby('colname1')['colname2'].count()`
    - `df.groupby('colname1')['colname2'].count().sort_values()`
- **Количество элементов таблицы**
    - `df.shape` - строки и столбцы
    - `df.shape[0]` - строки
    - `df.shape[1]` - столбцы
- **Логическая индексация**
    - `df.loc[df.loc[:,'colname'] == 'val']`
    - `df.loc[df.loc[:,'colname'] == 'val']['В']`
    - `df.loc[df.loc[:,'colname'] == 'val']['В'].count()`
- **Логическая индексация**
    - `df.loc[(df['colname1'] == 'val1') & (df['colname2'] == 'val2')]`
    - `df.loc[df.loc[:, 'colname'] = 'val']`
    - `df.loc[df['colname1'] == 'val', 'colname2']`
- [**Замена значений**](#replace_values_01)
    - `df.loc[:, 'colname'] = 'val'`
    - `df.loc[df['colname1'] == 'val', 'colname2_for_new_val'] = 'newval'`
    - `df.loc[df['colname1'] == 'val', 'colname2'] += val`
    - `rows = (df['colname1'] == 'val1') & (df['colname2'] == 'val2')`
    - `df.loc[rows, "colname_for_new_val"] = "newval"`
    - `df.loc[index, 'colname'] = val`

- **Подсчет нескольких агрегатных функций на столбец**
    - `df.groupby('colname1').agg({'colname2': ['count', 'sum'], 'colname3': ['min', 'max']})`
- **Подсчет разныз параметров числовых столбцов**
    - `df['colname'].sum()`
    - `df['colname'].min()`
    - `df['colname'].max()`
    - `df['colname'].mean()`
    - `df['colname'].median()`
    - `df['colname'].count()`
- **Генерация новых столбцов**
    - `df['newcolname'] = df['colname1'] + df['colname2']`

<div class="alert alert-success">
    <h1>Поток кода</h1>
</div>

<a id='rename_01'></a>
### Стиль заголовков
- привести к нижнему регистру
- убрать пробелы
- использоват snake_case

In [None]:
df.rename(columns={'  userID': 'user_id', 'Track': 'track', '  City  ': 'city', 'Day': 'day'}, inplace=True)
df.columns = df.columns.str.strip().str.lower().str.replace('userid', 'user_id')

<a id='replace_values_01'></a>
### Замена значений

In [None]:
# Напишем функцию, которая заменяет значения в зависимости от условия

def abnormal_replace(cell):
    if cell > 300000:
        cell /= 24 
    return cell

# Применим функцию к нужному столбцу
df['days_employed'] = df['days_employed'].apply(abnormal_replace)

In [None]:
def dob_years_repair(row):
    if row['dob_years'] == 0:
        return int(row['days_employed'] / 365 + 19 )
    else:
        return row['dob_years']

df['dob_years'] = df.apply(dob_years_repair, axis=1)

<a id='replace_duplicates_01'></a>
### Замена неявных дубликатов

In [None]:
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

In [None]:
def replace_wrong_genres_upgrade(genres_duplicates): # принимаем на вход словарь с данными о дубликатах
    for item in genres_duplicates.items(): # обходим каждый элемент словаря, распаковывая их в кортеж
        for val in item[1]: # в кортеже создаем цикл на обход списка (по сути это значение ключа словаря со списком дубликатов)
            df['genre'] = df['genre'].replace(val, item[0]) # заменяем каждый дубликат на верное значение (ключ словаря)

<a id='categorise_01'></a>
### Категоризация данных

In [None]:
def alert_group(messages):
    if messages <= 300:
        return 'средний'
    elif messages >= 301 and messages <= 500:
        return 'высокий'
    else:
        return 'критичный'

df['alert_group'] = df['user_id'].apply(alert_group)

In [None]:
def alert_group_importance(row):
    if row['alert_group'] == 'средний' and row['importance'] == 1:
        return 'обратить внимание'
    elif row['alert_group'] == 'высокий' and row['importance'] == 1:
        return 'высокий риск'
    elif row['alert_group'] == 'критичный' and row['importance'] == 1:
        return 'блокер'
    else:
        return 'в порядке очереди'

df['importance_status'] = df.apply(alert_group_importance, axis=1)

In [None]:
def is_part_in_list(str_, words):
    for word in words:
        if word.lower() in str_.lower():
            return True
    return False