Работа с Jupyter Notebook
==

## Содержание
1. [Чтение данных](#read_data1)
2. [Анализ](#analysis)
3. [Примеры работы с базовым функционалом](#examples)
4. [Полезные ссылки](#additional_info)

___

In [None]:
import pandas as pd
import numpy as np

# Для Linux / MacOS
# import ssl
# ssl._create_default_https_context = ssl._create_unverified_context

## Чтение данных <a name="read_data1"></a>

<div class="alert alert-block alert-info">
<b>Tip:</b> Если вы запускаете Jupyter Notebook на локальном ПК, можно использовать блок `try...except`, чтобы при проверке вашего проекта в среде Яндекса, у ревьюера не возникала ошибка, если вы вдруг забыли изменить путь к файлу :) </div>

In [None]:
%%time
try:
    df = pd.read_csv('/datasets/data.csv') # Yandex path
except:
    df = pd.read_csv('data.csv') # personal path

Также можно использовать непосредственно ссылку на датасет (нажать на название датасета правой кнопкой мыши и скопировать ссылку), однако подобное чтение файла занимает больше времени (можно сравнить результаты работы функции `%%time` в обоих вариантах чтения):

In [None]:
%%time
df = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [None]:
df

## Анализ <a name="analysis"></a>

In [None]:
df.info()

Подсчет **количества** отсутствующих значений

In [None]:
df.isna().sum()

Подсчет **доли** отсутствующих значений с округлением

In [None]:
round(df.isna().sum() * 100 / len(df), 2)

Сводная информация по _параметрам_ данных

In [None]:
df.describe()

____

## Примеры работы с базовым функционалом <a name="examples"></a>

In [None]:
# create sample data
sample_data = {'col_1': [np.nan, 3, 2, 1, 0, np.nan, 4], 
               'col_2': ['a', 'b', 'c', 'd', 'e', 'f', np.nan]}

sample_df = pd.DataFrame.from_dict(sample_data)
sample_df

In [None]:
# Fill nans
sample_df = sample_df.fillna(method='ffill') # forward fill

sample_df = sample_df.fillna(method='bfill') # backward fill

sample_df = sample_df['col_1'].fillna((sample_df['col_1'].mean())) # fill with mean (column)

sample_df = sample_df.fillna(sample_df.mean()) # fill with mean

sample_df = sample_df.fillna({
    'col_1': 0.0,
    'col_2': 'missing value'}) # clean up missing values in multiple DataFrame columns

In [None]:
# Drop nans
sample_df.dropna(inplace=True) # rows

sample_df = sample_df.dropna(axis=1) # columns

sample_df = sample_df.dropna(axis='columns', how='all') # drop columns with all nans

sample_df = sample_df.dropna(axis='rows', thresh=2) # minimum number of not nan values

sample_df = sample_df.dropna(subset=['col_1', 'col_2']) # specified columns

In [None]:
def find_cat_and_num_cols(df):
    # find categorical and numerical columns
    
    categorical_columns = [c for c in df.columns if df[c].dtype.name == 'object']
    numerical_columns   = [c for c in df.columns if df[c].dtype.name != 'object']
    
    return categorical_columns, numerical_columns

find_cat_and_num_cols(sample_df)

In [None]:
# Rename several DataFrame columns
sample_df = sample_df.rename(columns = {
    'col_1':'col1',
    'col_2':'col2'
})

In [None]:
# Lower-case all DataFrame column names
sample_df.columns = sample_df.columns.str.lower()

In [None]:
# Lower-case column values
sample_df = sample_df['col2'].str.lower()

In [None]:
# Replace multiple spaces in column
sample_df['col2'] = sample_df['col2'].replace('\s+', ' ', regex=True)

In [None]:
# Replace text values with their numeric equivalent by using replace
cleanup_nums = {'num_1': {'four': 4, 'two': 2},
                'num_2': {'four': 4, 'six': 6, 'five': 5, 'eight': 8,
                                  'two': 2, 'twelve': 12, 'three': 3}}

sample_df.replace(cleanup_nums, inplace=True)

In [None]:
# Concatenate two DataFrame columns into a new, single column
sample_df['col3'] = sample_df['col_1'].map(str) + ' ' + sample_df['col_2'].map(str)

In [None]:
# Split DataFrame column into two columns by values
sample_df[['col3_1', 'col3_2']] = sample_df['col3'].str.split(' ', expand=True)

In [None]:
# Sort dataframe by column
sample_df.sort_values('col1', ascending=False, na_position='first') # NaN values will be first

# Sort dataframe by multiple columns
sample_df.sort_values(['col1', 'col2'], ascending=[True, False])

In [None]:
# Grab DataFrame rows where column has certain values
values = ['a', 'b', 'c']
sample_df[sample_df['col2'].isin(values)]

# Grab DataFrame rows where column doesn't have certain values
values = ['a', 'b', 'c']
sample_df[~sample_df['col2'].isin(values)]

In [None]:
# Select from DataFrame using conditions for multiple columns
# (`|` is for OR; use `&` instead of `|` for AND)
new_df = sample_df[(sample_df['col_1'] >= 2) | (sample_df['col_2'] == 'c')]

## Перенос длинных строк
В соответствии с [PEP8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html) длинной строкой считается срока, состоящая из более, чем **79 символов**

**[Подробнее о переносах строк в Python](https://tirinox.ru/new-line/)**

In [None]:
print('This is a really long sentence,'
      'but we can make it across multiple lines.')

In [None]:
# backslash (explicit line joining)
a = '1' + '2' + '3' + \
    '4' + '5'

In [None]:
# using parentheses (implicit line joining) 
a = ('1' + '2' + '3' +
    '4' + '5')

In [None]:
# using parentheses (implicit line joining)
a = True
b = False

if (a == True and
    b == False):
    # do smth

In [None]:
# backslash (explicit line joining)
if a == True and \ 
    b == False:
    # do smth

## Полезные ссылки <a name="additional_info"></a>
- [Как использовать JN на 100% (видео)](https://www.youtube.com/watch?v=q4d-hKCpTEc)
- [Cheat Sheet JN](https://www.edureka.co/blog/wp-content/uploads/2018/10/Jupyter_Notebook_CheatSheet_Edureka.pdf)
- [Cheat Sheet Python](https://perso.limsi.fr/pointal/_media/python:cours:mementopython3-english.pdf)
- [Cheat Sheet Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Style Guide for Python Code](https://www.python.org/dev/peps/pep-0008/) 
- [Руководство по написанию кода на Python](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html)
- <code style="background:yellow;color:black">[The Ultimate Markdown Guide for Jupyter Notebook](https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd)</code>