<div style="border:solid green 2px; padding: 20px">
    
# Структура проекта
## Оглавление
### Название проекта
- Вступление
    - краткое описание проекта
- Цель исследования
    - проверить гипотезы и т.п.
    - перечислить их с кратким описанием
- Ход исследования
    - где получили данные
    - какого они качества
    - что предстоит сделать
    - коротко описать этапы

### Обзор данных
- Чтение данных
- Выводы о качестве данных (пропущенные значения и тп)
- Список столбцов с описанием (описать нарушения стиля)
- Краткая сводка о типе данных
- Выводы

### Предобработка данных
- Пройтись по чек листу подробно комментируя шаги и код
- Выводы
    - Описать найденные проблемы
    - Описать их решение и плюсы

### Проверка гипотез
- Заголовок гипотезы
    - Описание гипотезы и ее цель
    - Код
    - Краткие выводы по шагам
    - Общий вывод гипотезы


### Итоги исследования
- Мы проверили гипотезы и установили
    - 1 гипотеза - вывод
    - 2 гипотеза - вывод
    - 3 гипотеза - вывод
- Общий вывод

# Чек лист DS
## Обзор данных
- чтение файла
    - использовать `try... except` для чтения
- обзор данных
    - `display(df.head())`
    - `df.info()`
    - `df.dtypes`
    - `df.shape`
    - `df.columns`
- при выводе DF выводить имя DF
    - `df.name`

## Предобработка данных

### Разведка данных
- [стиль заголовков](#rename_01) - `df.rename()` или `df.columns.str`
- подсчет пропусков - `df.isna().sum()`
- определение типа пропусков
- приведение типов
    - `df['colname'] = pd.to_numeric(df['colname'], errors='coerce')`
    - `df['colname'] = df['colname'].astype('int')`
    - `df['newcolname'] = pd.to_datetime(df['colname'], format='%d.%m.%YZ%H:%M:%S')`
    - `df['newcolname'] = pd.DatetimeIndex(df['colname']).month`

- определение странных значений
    - использовать `try-except` для подсчета бракованных значений в цикле
    - использовать `try-except` для записи строк с ошибками

### Работа с пропусками
- замена пропусков - `df['colname'].fillna('value')`
- удаление пропусков - `df.dropna(subset=['colname1', 'colname2'])`
- работа с пропусками в категориальных переменных - `df.loc[df['colname'] == 'None', 'colname2'] = 'newvalue'`
- работа с пропусками в количественных переменных
    - если требуется категоризировать тип пропусков - `category = df.loc[df.loc[:, 'colname'] = 'val']`
    - замена близких значений (возраст) с помощью среднего - `df['colname'].mean()`
    - замена значений с выбросами (зарплата) с помощью медианы - `df['colname'].median()`

### Работа с дубликатами
- подсчет явных дубликатов - `df.duplicated().sum()`
- удаление явных дубликатов - `df.drop_duplicates().reset_index(drop=True)`
- поиск неявных дубликатов
    - проверить глазами - `df['colname'].sort_values().unique()`
    - привести все символы в нижний регистр - `df['newcolname'] = df['colname'].str.lower()`
- замена дубликатов
    - [замена неявных дубликатов](#replace_duplicates_01) - `df['colname'].replace('wrong', right')`
    - чистим сами значения внутри таблицы, делая NaN - `df['colname'] = df['colname'].drop_duplicates()`
    - удалить эти строки - `df = df.dropna().reset_index(drop=True)`

### Категоризация данных
- классификация по типу ВОТ ТУТ!!!!
- соединить данные
    - `df_new = df1.merge(df2, on='colname', how='left')`
- создать сводные таблицы для наглядности
    - `df_pivot = df.pivot_table(index=['colname1', 'colname2'], columns='colname3', values='colname4', aggfunc='sum')`
    - `df_pivot_with_reset_index = df_pivot.reset_index()`
    - `df_grouped = df.groupby(['colname1','colname2','colname3']).agg({'colname4':'sum'})`
    - `df_grouped['newcol'] = df['colname'] / val`


## Проверка гипотез


## Оформление результатов исследования

# Полезные приемы
- фильтрация ланных
    - `df[df['colname'] == 'val']`
    - `df[df['colname'] == 'val'].count()`
    - `df[df['colname'] == 'val']['colname'].count()`
    - `df[df['colname'] != 'val']` - избавиться от ненужного значения
- подсчет количества
    - `df.groupby('colname1')['colname2'].count()`
    - `df.groupby('colname1')['colname2'].count().sort_values()`
- количество элементов таблицы
    - `df.shape` - строки и столбцы
    - `df.shape[0]` - строки
    - `df.shape[1]` - столбцы
- логическая индексация
    - `df.loc[df.loc[:,'colname'] == 'val']
    - `df.loc[df.loc[:,'colname'] == 'val']['В']`
    - `df.loc[df.loc[:,'colname'] == 'val']['В'].count()`
- логическая индексация и замена значений
    - `df.loc[:, 'colname'] = 'val'`
    - `df.loc[df.loc[:, 'colname'] = 'val']`
    - `df.loc[df['colname1'] == 'val', 'colname2']`
    - `df.loc[df['colname1'] == 'val', 'colname2_for_new_val'] = 'newval'`
    - `df.loc[(df['colname1'] == 'val1') & (df['colname2'] == 'val2')]`
    - `rows = (df['colname1'] == 'val1') & (df['colname2'] == 'val2')`
    - `df.loc[rows, "colname_for_new_val"] = "newval"`
    - `df.loc[index, 'colname'] = val`
- подсчет нескольких агрегатных функций на столбец
    - `df.groupby('colname1').agg({'colname2': ['count', 'sum']})`

<a id='rename_01'></a>
**Стиль заголовков**
- привести к нижнему регистру
- убрать пробелы
- использоват snake_case

In [None]:
df.rename(columns={'  userID': 'user_id', 'Track': 'track', '  City  ': 'city', 'Day': 'day'}, inplace=True)
df.columns = df.columns.str.strip().str.lower().str.replace('userid', 'user_id')

<a id='replace_duplicates_01'></a>
**Замена неявных дубликатов**

In [None]:
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

In [None]:
def replace_wrong_genres_upgrade(genres_duplicates): # принимаем на вход словарь с данными о дубликатах
    for item in genres_duplicates.items(): # обходим каждый элемент словаря, распаковывая их в кортеж
        for val in item[1]: # в кортеже создаем цикл на обход списка (по сути это значение ключа словаря со списком дубликатов)
            df['genre'] = df['genre'].replace(val, item[0]) # заменяем каждый дубликат на верное значение (ключ словаря)