# Семинар 2. Matplotlib, Pandas

План ноутбука:
* Освоить синтаксис библиотеки Pandas
* Понять, как работать с объектами библиотеки Matplotlib и строить в ней графики


# Pandas

In [1]:
import ...

In [None]:
data = pd.read_csv('...')
data

In [None]:
data.head(3)

Пара способов посмотреть на признаки:

In [None]:
data.columns

In [None]:
data.info()

По данным можно индексироваться при помощи номеров строк/столбцов или названий признаков:

In [None]:
data[2:5]

In [None]:
data.iloc[1:5, 1:3]

In [None]:
data['Name'].head()

In [None]:
data[['Name', 'Sex', 'Parch']].head()

Также действует и логическая индексация, которая позволяет рассматривать определенные группы объектов:

In [None]:
data[data['Sex'] == 'female'].head() # женщины на борту

In [None]:
# женщины старше 60 и мужчины на борту
data[(data['..'] == '...') & 
     (data['...'] >= ...) | (data['...'] == '...')].head()

#### Пример
<details>
<summary>Как вы думаете, сколько на борту было относительно молодых женщин, путешествующих в одиночку?</summary>
Скорее всего, довольно мало, потому что в такое длительное путешествие молодых девушек одних не отпустили бы опекающие родственники.
</details>

Напишем соответствующее логическое выражение:

In [None]:
...

Посмотрим на распределение числа людей по возрасту:

In [None]:
data.Age.hist(bins = 30)

## Редактирование DataFrame

* Переименование признаков

In [None]:
data.rename(columns={'Sex': 'sex'}, inplace=True)
data.head()

* Применение преобразования к существующему признаку. Например, выделим фамилию:

In [None]:
def get_last_name(name):
    return name.split(',')[0].strip()

last_names = data['Name'].apply(get_last_name)
last_names.head()

* Добавление признака

In [None]:
data['Last_name'] = last_names
data.head(3)

In [None]:
data.drop('Last_name', axis=1, inplace=True)
data.head()

* Работа с пропущенными данными

Методы isnull() и notnull() позволяют получить бинарный массив, отражающий отсутствие или наличие данных для каждого из объектов соответственно:

In [None]:
data['Cabin'].isnull().head()

In [None]:
data[data['Cabin'].notnull()].head()

* Сортировка объектов/признаков

In [None]:
data.sort_values(by=['Pclass', 'Fare'], ascending=True).head()

In [None]:
data.sort_values(by=['Pclass', 'Fare'], ascending=[True, False]).head()

## Группировка данных

Группировка при помощи метода groupby позволяет объединять данные в группы по одному или нескольким признакам и считать по ним общую статистику.

In [None]:
data.groupby('sex') # разбиение всех объектов на 2 группы по полу

In [None]:
data.groupby('sex')['Pclass'].value_counts()

In [None]:
data.groupby('Pclass')['Fare'].describe()

In [None]:
data.groupby('sex')['Age'].mean() # средний возраст для пассажиров каждого из полов

Как известно, в первую очередь спасали женщин и детей в порядке повышения номера класса, в связи с этим доля выживших женщин, вероятно, будет выше, чем доля выживших мужчин. Проверим:

In [None]:
...

Аналогично для пассажиров различных классов:

In [None]:
...

# Matplotlib

In [39]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

In [40]:
x = np.linspace(1, 10, 20)

Для построения графиков в matplotlib используются фигуры и заданные для них оси, что довольно удобно в случае, когда необходимо строить несколько графиков или их расположение нестандартное.

In [None]:
fig = plt.figure(figsize=(10, 6))

axes = fig.add_axes([0.1, 0.1, 0.8, 0.8])

axes.plot(x, x ** 2, 'r')
axes.plot(x, x ** 3, 'b*--')

axes.set_xlabel('x')
axes.set_ylabel('y')
axes.set_title('title')
axes.legend([r'$x^2$', 'x^3'], loc = 0)

In [None]:
fig = plt.figure(figsize=(10, 6))

axes = fig.add_axes([0.1, 0.1, 0.8, 0.8])

axes.scatter(x, x ** 2, color='red', marker='*', s=80)
axes.scatter(x, x ** 3)

axes.set_xlabel('x')
axes.set_ylabel('y')
axes.set_title('title')

In [None]:
fig = plt.figure(figsize=(10, 6))

axes = fig.add_axes([0.1, 0.1, 0.8, 0.8])

axes.plot(x, x ** 2, 'r^-', label = r'$y = x^2$', markersize=8, markerfacecolor="yellow", 
          markeredgewidth=1, markeredgecolor="green")
axes.plot(x, x ** 3, 'b*--', label = r'$y = x^3$', alpha = 0.5)

axes.set_xlabel('x')
axes.set_ylabel('y')
axes.set_title('title')
axes.legend(loc = 0, fontsize = 18)

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=3, figsize = (16, 5))

for pow_num, ax in enumerate(axes):
    ax.plot(x, x ** (pow_num + 1), 'r')
    ax.set_xlabel('x')
    ax.set_ylabel('y')
    ax.set_title(r'$y = x^' + str(pow_num + 1)+ r'$', fontsize = 18)
fig.tight_layout() # борьба с пересечением подграфиков

In [None]:
fig.savefig("pows.png", dpi=200)

Задание: напишите функцию, принимающую на вход параметры двумерного нормального распределения и размер выборки, генерирующую случайную выборку из этого распределения и отображающая её на графике.

In [None]:
def generate_and_plot_2d_normal(mu, cov, num_samples=1000):
    """
    Generate a random 2D sample based on a normal distribution and plot it.
    
    Parameters:
    mu : array-like, shape (2,)
        The mean of the distribution (center of the distribution).
    cov : array-like, shape (2, 2)
        The covariance matrix of the distribution.
    num_samples : int
        The number of random samples to generate.
    """
    # Сгенерируйте случайную выборку из двумерного нормального распределения
    ...
    
    # Отобразите эту выборку на графике
    ...

# Продемонстрируйте работу
mu = ...
cov = ...
generate_and_plot_2d_normal(mu, cov, num_samples=1000)