Based on code from mlcourseopen by Yuri Kashnitsky, licensed under [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/).

# Часть первая: мы пробуем пандас

In [0]:
import numpy as np
import pandas as pd
%matplotlib inline

**Считаем данные из файла в память в виде объекта Pandas.DataFrame**

In [2]:
data = pd.read_csv('titanic_train.csv',
                  index_col='PassengerId')

FileNotFoundError: ignored

**Данные представлены в виде таблицы. Посмотрим на первые 5 строк:**

In [0]:
data.head(5)

In [0]:
data.tail(5)

In [0]:
data.sample(5)

In [0]:
data.describe()

**Ещё несколько интересных атрибутов и функций для анализа датафрейма**

In [0]:
data.shape

In [0]:
data.info()

In [0]:
data.memory_usage()

**Для примера отберем пассажиров, которые сели в Cherbourg (Embarked=C) и заплатили более 200 у.е. за билет (fare > 200).**

Убедитесь, что Вы понимаете, как эта конструкция работает. <br>
Если нет – посмотрите, как вычисляется выражение в квадратных в скобках. <br>
Отдельно обратите внимание на то, какие при этом создаются структуры данных и сколько они живут

In [0]:
data[(data['Embarked'] == 'C') & (data.Fare > 200)].head()

**Можно отсортировать этих людей по убыванию платы за билет.**

In [0]:
data[(data['Embarked'] == 'C') & 
     (data['Fare'] > 200)].sort_values(by='Fare',
                               ascending=False).head()

**Пример создания признака.**

In [0]:
def age_category(age):
    '''
    < 30 -> 1
    >= 30, <55 -> 2
    >= 55 -> 3
    '''
    if age < 30:
        return 1
    elif age < 55:
        return 2
    else:
        return 3

In [0]:
data['Age_category'] = [age_category(age) for age in data['Age']]

**Другой способ – через `apply`.**

In [0]:
data['Age_category'] = data['Age'].apply(age_category)

**1. Сколько мужчин / женщин находилось на борту?**

In [0]:
# Ваш код здесь

**2. Выведите распределение переменной `Pclass` (социально-экономический статус) и это же распределение, только для мужчин / женщин по отдельности. Сколько было мужчин 2-го класса?**

In [0]:
# Ваш код здесь

**3. Каковы медиана и стандартное отклонение платежей (`Fare`)? Округлите до 2 десятичных знаков.**

In [0]:
# Ваш код здесь

**4. Правда ли, что люди моложе 30 лет выживали чаще, чем люди старше 60 лет? Каковы доли выживших в обеих группах?**

In [0]:
# Ваш код здесь

**5. Правда ли, что женщины выживали чаще мужчин? Каковы доли выживших в обеих группах?**

In [0]:
# Ваш код здесь

**6. Найдите самое популярное имя среди пассажиров Титаника мужского пола?**

In [0]:
# Ваш код здесь

**7. Сравните графически распределение стоимости билетов и возраста у спасенных и у погибших. Средний возраст погибших выше, верно?**

In [0]:
# Ваш код здесь

**8. Как отличается средний возраст мужчин / женщин в зависимости от класса обслуживания? Выберите верные утверждения:**
- В среднем мужчины 1-го класса старше 40 лет
- В среднем женщины 1-го класса старше 40 лет
- Мужчины всех классов в среднем старше женщин того же класса
- В среднем люди в 1 классе старше, чем во 2-ом, а те старше представителей 3-го класса

In [0]:
# Ваш код здесь

 # Конец первой части

# Часть вторая: пандас пробует нас

## Apply and his friends

**Для более подробного анализа apply сделаем небольшой датафрейм:**

In [0]:
numbers = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [6, 7, 8, 9, 0]})
numbers

**Давайте напишем простую функцию, которая печатает результат apply:**

In [0]:
def apply_and_inspect(data, func='apply', callme=None, axis=None, log=False):    
    kwargs = {'log': log}
    if axis is not None:
        kwargs['axis'] = axis
        
    ret = getattr(data, func)(callme, **kwargs)
    print('=======')
    print(f'Result:\n{ret}\nType: {type(ret)}')
    

In [0]:
def square(x, log=False):
    if log:
        print(f'-------\n'
              f'{x}\n'
              f'Type: {type(x)}')
    return x ** 2

In [0]:
apply_and_inspect(numbers, callme=square)

In [0]:
apply_and_inspect(numbers, callme=square, axis=1)

In [0]:
apply_and_inspect(numbers[['x']], callme=square)

In [0]:
apply_and_inspect(numbers['x'], callme=square)

**Теперь посмотрим на более специфичные методы applymap и map:**

In [0]:
apply_and_inspect(numbers, func='applymap', callme=square)

In [0]:
apply_and_inspect(numbers['x'], func='map', callme=square)

In [0]:
def squared_series(x):
    return pd.Series({'value': x, 'square': x ** 2})

In [0]:
apply_and_inspect(numbers['x'], func='apply', callme=squared_series)

In [0]:
apply_and_inspect(numbers['x'], func='map', callme=squared_series)

### А всегда ли нужен apply?

In [0]:
numbers['x'].pow(2)

**Pandas поддерживает так называемые ufuncs из numpy. Эти функции имеют низкоуровневую реализацию, поэтому будут работать быстрее**

**Продолжим веселье с Титаником**

In [0]:
data['Name'].head()

**Достанем фамилии уже знакомым нам методом:**

In [0]:
data['Name'].apply(lambda x: x.split(',', 1)[0]).head()

**А теперь чуть-чуть волшебства с помощью волшебного str data accessor:**

In [0]:
data['Name'].str.split(',', 1).str.get(0).head()

**И совсем неприлично:**

In [0]:
import re

data['Name'].str.findall(re.compile('^(.+),')).str.get(0).head()

**Это, конечно, далеко не все возможности str. Более того, есть ещё dt для работы с датами/временем. <br> 
Подробнее — здесь: <br> 
https://pandas.pydata.org/pandas-docs/stable/text.html <br> 
https://pandas.pydata.org/pandas-docs/stable/timeseries.html**

## GroupBy

**Вспомним, как посчитать количество пассажиров каждого пола:**

In [0]:
data['Sex'].value_counts()

**Попытаемся сделать то же самое, но с разбиением на классы:**

In [0]:
# Code here

**Выглядит не очень круто. А теперь сделаем правильно**

In [0]:
data.groupby('Pclass')['Sex'].value_counts()

**А можно и наоборот**

In [0]:
data.groupby('Sex')['Pclass'].value_counts()

**И даже по нескольким колонкам сразу:**

In [0]:
data.groupby(['Pclass', 'Sex'])['Age'].median()

**Продолжим мучить apply**

In [0]:
numbers['z'] = [1, 0, 1, 0, 1]
numbers

In [0]:
apply_and_inspect(numbers.groupby('z'), callme=square, log=True)

**Вообще GroupBy — один из мощнейших инструментов в Pandas, но описание всех его возможностей выходит за рамки нашего курса. Любознательные читатели приглашаются в документацию: https://pandas.pydata.org/pandas-docs/stable/groupby.html**

## Merge

**Теперь давайте добавим внешнюю информацию о городах:**

In [0]:
cities = pd.DataFrame({'Embarked': ['S', 'C', 'Q'],
                       'City': ['Southampton', 'Cherbourg', 'Queenstown'],
                       'Latitude': [50.8908, 49.6326, 51.840],
                       'Longitude': [-1.3493, -1.5611, -8.2418]})
cities

**Было бы неплохо теперь добавить её в наш датасет (зачем-нибудь)**

In [0]:
data.merge(cities, on='Embarked', how='left').head()

**Семантика merge очень похожа на JOIN в SQL. Для более подробного изучения советую прочитать вот эту статью: https://pandas.pydata.org/pandas-docs/stable/merging.html**

## Запросы

**Вернёмся к селектору из самого начала**

In [0]:
data[(data['Embarked'] == 'C') & (data.Fare > 200)].head()

**Попробуем переписать это с использованием query:**

In [0]:
data.query('Embarked == "C" and Fare > 200').head()

**И — в качестве упражнения — давайте посчитаем двумя способами всех мужчин старше 33 лет из 2-3 классов:**

In [0]:
data[(data['Age'] > 33) & (data['Sex'] == 'male') & (data['Pclass'] != 1)].head()

In [0]:
data.query('Age > 33 and Sex == "male" and Pclass != 1').head()

**Усложним себе жизнь и будем сравнивать возраст не со сферическим 33 в вакууме, а с настоящей медианой:**

In [0]:
median_age = data['Age'].median()
data[(data['Age'] > median_age) & (data['Sex'] == 'male') & (data['Pclass'] != 1)].head()

**То же самое из query:**

In [0]:
data.query('Age > @median_age and Sex == "male" and Pclass != 1').head()

**query и его старший брат eval позволяют сэкономить память на создании промежуточных массивов и сделать выражения читабельнее
Разницы в производительности на достаточно больших массивах не замечается. **

*Подробнее можно почитать тут: https://jakevdp.github.io/PythonDataScienceHandbook/03.12-performance-eval-and-query.html *

## Пайплайны

**Как вы могли заметить, операции над датафреймами очень удобно выстраивать в цепочки:**

In [0]:
(data.query('Age > 33 and Pclass != 1')
     .groupby(['Pclass', 'Sex'], as_index=False)
     .agg({'Age': 'median',
           'Name': 'first',
           'Embarked': lambda x: 'Chelyabinsk (WTF?)'})
     .reset_index(drop=True)
     .assign(Generated=True)
     .rename(columns={'Sex': 'Gender'}))

**Получается наглядно, читаемо и ~~функционально~~ без промежуточных переменных<br>
Но есть нюанс (гусары, молчать!). Иногда нам нужно пропустить датафрейм через несколько функций**

In [0]:
def add_noise(df, *, randomizer):
    return df + randomizer(size=df.shape)

def multiply_by_number(df, value):
    return df * value

def duplicate(df):
    return pd.concat([df, df], ignore_index=True)

**Получается плохо читаемая лапша**

In [0]:
add_noise(duplicate(multiply_by_number(numbers, 42)), randomizer=np.random.normal)

**Или так:**

In [0]:
multiplied = multiply_by_number(numbers, 42)
duplicated = duplicate(multiplied)
noised = add_noise(duplicated, randomizer=np.random.normal)
noised

**pandas-way:**

In [0]:
(numbers.pipe(multiply_by_number, 42)
        .pipe(duplicate)
        .pipe(add_noise, randomizer=np.random.normal))

## Ещё немного о pandas-way: чем меньше циклов, тем лучше

In [0]:
numbers = pd.DataFrame(np.random.rand(100000, 2))
numbers.head()

In [0]:
%%timeit
for i in range(numbers.shape[0]):
    numbers.iloc[i, 0] = numbers.iloc[i, 0] ** 2 + numbers.iloc[i, 1]

In [0]:
%%timeit
for _, row in numbers.iterrows():
    row[0] = row[0] ** 2 + row[1]

In [0]:
%%timeit
numbers.apply(lambda row: row[0] ** 2 + row[1] + random.randint)

In [0]:
%%timeit
numbers.iloc[:, 0] = numbers.iloc[:, 0].pow(2) + numbers.iloc[:, 1]