## Содержание:
- Операции с векторами и матрицами
- Библиотека Matplotlib
- Введение в Pandas
- Описательные статистики в Python
- Pandas – работа с несколькими файлами

# Операции с векторами и матрицами

#### Скалярное произведение векторов

In [None]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4])

# <a, b> = 3 * 2 + 1 * 5 + 5 * 2 + 2 * 4

print(a @ b)  # python 3 style
print(a.dot(b))
print(np.dot(a, b))

Размерность должна совпадать

In [None]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4, 4])
print(a @ b)  # python 3 style

#### Умножение матриц
  
Операция умножения определена для двух матриц, таких что число столбцов первой равно числу строк второй.

![Ошибка загрузки](https://habrastorage.org/getpro/habr/upload_files/312/289/4fe/3122894fe15441ef8e81f74b1e8ffeb4.gif)

In [None]:
a = np.array([[1, 2], [2, 0]])
b = np.array([[2, 5], [1, 3]])
# print(a)
# print(b)
print(a @ b)
print(a.dot(b))
print(np.dot(a, b))

In [None]:
# c[0][0] = 1 * 2 + 2 * 1 = 4
# c[0][1] = 1 * 5 + 2 * 3 = 11
# c[1][0] = 2 * 2 + 0 * 1 = 4
# c[1][1] = 2 * 5 + 0 * 3 = 10

In [None]:
a

In [None]:
b

In [None]:
a = np.array([[1, 2], [2, 0]])
b = np.array([1, 2])
print(a @ b)

**!!!Не путайте поокординатное умножение с матричным!!!**

In [None]:
print(a * b)

#### Умножение матриц и векторов

<img src="https://dev.opera.com/articles/understanding-the-css-transforms-matrix/5.png">

In [None]:
m = np.array([[1, 2], [0, 1], [2, 4]])
print(m)
v = np.array([2, 5])
print("v = ",v)
m @ v

## Полезные фукнции и методы для работы с массивами



**1. Замена элементов по индексу**

In [None]:
a = np.array([5, 78, 23, 2, 9, 10, 13, 99, 12, 3])
a

In [None]:
np.put(a, ind=[0, 2], v=[-44, -55])
a

In [None]:
np.put(a, [0, 2], [-44, -55])
a

**2. Выделение массива по условию**

In [None]:
# Замена элементов массива по условию: a if a < 0 else 0

np.where(a < 0, a, 0)

In [None]:
# Выбор элементов по условию

a[np.where(a < 0)]

**3. Сортировка**

In [None]:
a

In [None]:
# Сортировка

np.sort(a)

In [None]:
# Индексы сортированного списка

np.argsort(a)

**4. Any и All для сложных логических условий**

`Any` возвращает True, если хотя бы один элемент `True`

`All` возвращает True, если все элементы `True`

In [None]:
any([True, True, False, True, False, False, False])

In [None]:
all([True, True, False, True, False, False, False])

In [None]:
# Сравнение векторов

np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2])

In [None]:
all(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

In [None]:
any(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

**5. Функции delet, insert и append не меняю массив, а возращают новый, в котором удалены, вставлены в середину или добавлены элементы**

In [None]:
a

In [None]:
a = np.delete(a, [2, 5])  # Удалить элементы по индексу
a

In [None]:
a = np.insert(a, 2, [0, 0])  # Вставить элементы под индексом
a

In [None]:
a = np.append(a, [1, 2, 3])  # Вставить элементы в конец массива
a

**6. Копия массива**

In [None]:
a = np.linspace(0, 1, 11)
a

In [None]:
b = a[2:5]
b

In [None]:
b[0] = -0.2
a  # Исходный массив изменился

In [None]:
b = a.copy()
b[1:5] = 0
print(a)
print(b)

Время выполнения

In [None]:
%%time
sum_value = 0
for i in range(10**8):
    sum_value += i
print(sum_value)

In [None]:
%%time
sum_value = sum(range(10**8))
print(sum_value)

In [None]:
%%time
sum_value = np.arange(10**8).sum()
print(sum_value)

Результат вычислений третьего варианта отличается от первых двух вариантов. С чем это связано, нужно разбираться.

Если вычислять 10**4, то результат во всех случаях будет одинаковый. Но уже нет наглядной разницы во времени выполнения кода.

Начиная с 10**5, третий вариант начинает выдавать результат, отличный от вычислений первых двух.

# Библиотека Matplotlib

Matplotlib – популярная Python-библиотека для визуализации данных.

Кроме официальной документации (https://matplotlib.org/stable/gallery/index.html), есть и сторонние сайты где можно посмотреть примеры построения графиков. Например, https://datavizcatalogue.com/RU/

In [None]:
import matplotlib.pyplot as plt
import numpy as np
# %matplotlib inline  

In [None]:
plt.plot((0, 1, 2, 3, 4, 5, 6, 7), (0, 5, 7, 5, 4, 6, 7, 0));

In [None]:
plt.plot((0, 1, 2, 3, 4, 5, 6, 7), (0, 5, 7, 5, 4, 6, 7))  # Количество значений должно быть одинаковое

In [None]:
plt.plot((0, 5, 7, 5, 4, 6, 7, 0));  # Если значения координаты Х "не нужны", их можно опустить

Изменение вида графиков

In [None]:
plt.plot((0, 1, 2, 3, 4, 5, 6, 7), (0, 5, 7, 5, 4, 6, 7, 0), "o");

In [None]:
plt.plot((0, 1, 2, 3, 4, 5, 6, 7), (0, 5, 7, 5, 4, 6, 7, 0), "--o");

Зададим диапазон переменной x

In [None]:
x = np.linspace(-5,5, 200)

In [None]:
plt.plot(x, x ** 2);  # Парабола 

In [None]:
plt.plot(x, np.sin(x), "--");

Создадим график рассеивания красного цвета

In [None]:
x = np.random.random(100)
y = np.random.random(100)
plt.plot(x, y, "o", c = "red"); 

Для отображения точечного графика предназначена функция scatter()

In [None]:
plt.scatter(x, y, c = "green");

Для дальнейшей настройки визуализации возьмем функцию экспоненциального распределения

In [None]:
data1 = np.random.exponential(5, 20)
data2 = np.random.exponential(5, 20)

In [None]:
plt.plot(data1)
plt.scatter(range(len(data2)),data2, c = "r");

In [None]:
# Добавим название

plt.plot(data1)
plt.scatter(range(len(data2)),data2, c = "r")
plt.title("Результаты", fontdict={"fontsize" : 20})  # fontdict настройки отображения названия графика
plt.show()

In [None]:
# Подпишем оси

plt.plot(data1)
plt.scatter(range(len(data2)),data2, c = "r")
plt.title("Результаты", fontdict={"fontsize" : 20})
plt.xlabel("Номер попытки")
plt.ylabel("Результат")
plt.show()

In [None]:
# Добавим сетку

plt.plot(data1)
plt.scatter(range(len(data2)),data2, c = "r")
plt.title("Результаты", fontdict={"fontsize" : 20})
plt.xlabel("Номер попытки")
plt.ylabel("Результат")
plt.grid()
plt.show()

In [None]:
# Добавим легенду

plt.plot(data1, label = "Первый игрок")
plt.scatter(range(len(data2)),data2, c = "r", label = "Второй игрок")
plt.title("Результаты", fontdict={"fontsize" : 20})
plt.xlabel("Номер попытки")
plt.ylabel("Результат")
plt.grid()
plt.legend(loc="best")
plt.show()

In [None]:
# Настроим ось х

plt.plot(data1, label = "Первый игрок")
plt.scatter(range(len(data2)),data2, c = "r", label = "Второй игрок")
plt.title("Результаты", fontdict={"fontsize" : 20})
plt.xlabel("Номер попытки")
plt.ylabel("Результат")
plt.grid()
plt.legend(loc="best")
plt.xticks(range(0, 21, 4))
plt.show()

Более подробнее возможные настройки можно посмотреть по ссылке https://matplotlib.org/stable/gallery/index

Создание гистограмм

In [None]:
plt.bar(range(len(data1)),data1);

In [None]:
# Изменим ширину
plt.bar(range(len(data1)),data1, width = 1);

Круговая диаграмма

In [None]:
plt.pie(data1);

In [None]:
plt.pie([1,12,8,7,9], autopct="%.1f%%");

Диаграмма размаха

In [None]:
plt.boxplot(data1);  # Оранжевая линия медиана элементов 

Объектный подход к построению графиков

In [None]:
fig, axes = plt.subplots()  # Функция возвращает кортеж из двух значений
axes.plot(data1);

In [None]:
fig, axes = plt.subplots() 
axes.plot(data1);
axes.set_title('График')  # Добавим подпись
plt.show()

In [None]:
fig, axes = plt.subplots() 
axes.plot(data1);
axes.set_title('График')
axes.set_xlim(0,20)  # Изменим ось х
plt.show()

In [None]:
# Несколько графиков в одной области

fig, axes = plt.subplots(nrows = 2, ncols = 3, figsize = (10, 5))

In [None]:
axes

In [None]:
fig, axes = plt.subplots(nrows = 2, ncols = 3, figsize = (10, 5))
axes[0][0].axes.plot(data1);
axes[1][1].axes.plot(data2);

In [None]:
# Пример использования enumerate

values = ["a", "b", "c"]
for v in values:
    print(v)
print()

for i, v in enumerate(values):
    print(i, v)

In [None]:
fig, axes = plt.subplots(nrows = 2, ncols = 3, figsize = (10, 8))
for row, row_axes in enumerate(axes):
    for column, ax in enumerate(row_axes):
        ax.plot(np.random.exponential((column + 1), 20))
        ax.set_title("Колонка {} строка {}". format(column + 1, row + 1))

In [None]:
# Сохранение изображения

fig.savefig("res.png")

3D графики

In [None]:
t = np.linspace(0, 4 * np.pi, 100)
plt.figure()
plt.polar(t, t);

In [None]:
t = np.linspace(0, 4 * np.pi, 100)
x = np.cos(t)
y = np.sin(t)
z = t / (4 * np.pi)
fig = plt.figure()
ax = fig.add_subplot(projection = "3d")
ax.plot(x, y, z)
plt.show()

In [None]:
# Изменим угол отображения

t = np.linspace(0, 4 * np.pi, 100)
x = np.cos(t)
y = np.sin(t)
z = t / (4 * np.pi)
fig = plt.figure()
ax = fig.add_subplot(projection = "3d")
ax.elve, ax.azim = 45, 30
ax.plot(x, y, z)
plt.show()

Библиотека seaborn

In [None]:
import seaborn as sns

In [None]:
def sinplot(a = 1):
    x = np.linspace(0, 14, 100)
    for i in range(1, 7):
        plt.plot(x, np.sin(x + i * 0.5) * (7 - i) * a)

In [None]:
sinplot()

In [None]:
plt.figure(figsize= (15, 10))
for i, context in enumerate(["notebook", "paper", "talk", "poster"]):
    sns.set(context = context)
    plt.subplot(2, 2, i + 1)
    sinplot()
    plt.title(context)

In [None]:
plt.figure(figsize= (15, 10))
for i, style in enumerate(["darkgrid", "whitegrid", "ticks", "dark", "white"]):
    sns.set(style = style)
    plt.subplot(3, 2, i + 1)
    sinplot()
    plt.title(style)

# Введение в Pandas

Pandas – это библиотека на Python, предназначенная для обработки и анализа структурированных табличных данных.

![Ошибка загрузки](https://nustat.github.io/DataScience_Intro_python/Datasets/series_dataframe.png)

Чтобы не писать название библиотеки целиком каждый раз, когда понадобится ее использовать, принято сокращать название библиотеки и импортировать ее как "pd":

In [None]:
import pandas as pd

**Series** – это объект библиотеки pandas, спроектированный для представления одномерных структур данных, похожих на массивы, но с дополнительными возможностями. Его структура проста, ведь он состоит из двух связанных между собой массивов. Основной содержит данные (данные любого типа NumPy), а в дополнительном, index, хранятся метки.

**Dataframe** – это табличная структура данных, напоминающая таблицы из Microsoft Excel. Ее главная задача – позволить использовать многомерные Series. Dataframe состоит из упорядоченной коллекции колонок, каждая из которых содержит значение разных типов (числовое, строковое, булевое и так далее).

In [None]:
s = pd.Series([1, 2, 3, 4])  # Автоматически индексы от 0 и до количества элементов

In [None]:
s

In [None]:
s = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])  # Зададим свои индексы
s

In [None]:
s = pd.Series([1, 2, 3, 4], index=["a", "a", "b", "b"])  # Допустимо совпадение индексов
s

In [None]:
s["a"]  # Обращение к индексу

В Pandas есть тип данных датафрейм (DataFrame), в котором удобно хранить таблицы с данными. Создадим объект такого типа самостоятельно:

In [None]:
df = pd.DataFrame()  # Создали пустой датафрейм с помощью метода DataFrame() библиотеки pandas (pd)
df['a'] = [10, 20, 30]  # Создаем колонку "а" и помещаем в нее столбец с данными – [10, 20, 30]
df

In [None]:
print(df)

In [None]:
df['b'] = ['one', 'two'] 
df

In [None]:
df['b'] = ['one', 'two', 'three']
df

Чаще всего приходится работать с уже готовыми наборами данных. Такие данные обычно хранятся в формтае xls(x) – для работы в Excel, или в формате csv – comma-separated value. Попробуем импортировать csv файл с данными о пассажирах Титаника.

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv')

In [None]:
data = pd.read_csv("train.csv")  # Так бы выглядела ссылка, если файл был локальный

По умолчанию разделитель запятая. При помощи sep можно изменить разделитель. Например:

data = pd.read_csv("train.csv", sep = ";")

Функция read_csv читает данные из файла формата csv и преобразует в pandas.DataFrame. Аналогичная функция read_excel может читать данные в офрмате xls(x).

Посмотрим на наши данные:

In [None]:
data  # Отобразится первые пять и последние пять строчек

Можно считать не все данные, а определенное количество первых строк и определенные столбцы

In [None]:
data_1 = pd.read_csv('https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv', nrows=15, usecols=["Name", "Age"])
data_1

In [None]:
data.head()  # Функция head() показывает первые строки датафрейма, по умолчанию 5

In [None]:
data.head(10)  # Можно передать аргументом количество строк, которые хотите увидеть

In [None]:
data.tail()  # Можно посмотреть последние записи

In [None]:
data.tail(10)  # Можно посмотреть последние 10 записей

По столбцам идут признаки, по строкам – объекты (пассажиры).

In [None]:
data.shape  # Функция shape показывает размерность датафрейма (строк, столбцов)

In [None]:
data.columns  # Список столбцов

Описание признаков:

**PassengerId** – id пассажира

**Survived** – бинарная переменная: выжил пассажир (1) или нет (0)

**Pclass** – класс пассажира

**Name** – имя пассажира

**Sex** – пол пассажира

**Age** – возраст пассажира

**SibSp** – количество родственников (братьев, сестер, супругов) пассажира на борту

**Parch** – количество родственников (родителей / детей) пассажира на борту

**Ticket** – номер билета

**Fare** – тариф (стоимость билета)

**Cabin** – номер кабины

**Embarked** – порт, в котором пассажир сел на борт: C – Cherbourg, S – Southampton, Q – Queenstown

In [None]:
data.dtypes  # Тип данных в столбцах

Так можно обратиться к столбцу:

In [None]:
data['Age']  # Выведется 5 первых и 5 последних элементов

In [None]:
data['Age'].head()  # Выведется 5 первых элементов

Второй способ:

In [None]:
data.Age.head()

Или к нескольким столбцам сразу:

In [None]:
data[['Age', 'Sex']].head()

Обращение к строке:

In [None]:
data.loc[0]  # Обращение к имени строки

In [None]:
data.iloc[0]  # Обращение к индексу строки

In [None]:
data.loc[1:3]  # Строки с 1 по 3

In [None]:
data.iloc[1:3]

In [None]:
data.loc[1:3, 'Survived':'Sex']  # Строки с 1 по 3, колонки от Survived до Sex

In [None]:
data.iloc[1:3, 1:5]  # Строки с 1 по 3 (не включительно), колонки от 1 до 5 (не включительно)

__loc__ возвращает данные на основе индекса, а __iloc__ –  основываясь исключительно на позиции индекса, начиная с 0.

Пример:

In [None]:
df = pd.DataFrame()
df['Name'] =  ['Иван', 'Сергей', 'Виктор', 'Виктория']
df['Num'] = [85, 90, 80, 95]
df.index = ["один", "пять", "два", "три"]
df

In [None]:
df.loc["один"]

In [None]:
df.iloc[1]

In [None]:
df.loc["один":"два"]

In [None]:
df.iloc[1:2]

Можем сделать индексом даже колоноку с именем. И тоже сможем обращаться к объектам через .loc

In [None]:
df.index = df.Name
print(df)
df.loc['Иван']['Num']

In [None]:
df.loc['Иван':'Виктор']

Вернемся к данным о пассажирах Титаника.

Можно выбирать объекты, удовлетворяющие каким-то свойствам, например, все пассажиры-женщины:

In [None]:
data.Sex == 'female'

In [None]:
data[data.Sex == 'female'].head()

Пассажиры первого класса:

In [None]:
data[data.Pclass == 1].head()

Пассажиры первого или второго классов:

In [None]:
data[(data.Pclass == 1) or (data.Pclass == 2)].head()  # Так не получится

In [None]:
data[(data.Pclass == 1) | (data.Pclass == 2)].head()

In [None]:
data[data.Pclass.isin([1, 2])].head()  # isin совпадение с 1 или 2

Пассажиры младше 18:

In [None]:
data[data.Age < 18].head()

Девушки в возрасте от 18 до 25, путешествующие в одиночку (без каких-либо родственников):

In [None]:
data[(data.Sex == 'female') & (data.Age > 18) & (data.Age < 25) & (data.SibSp == 0) & (data.Parch == 0)]

Количество найденных совпадений 

In [None]:
data[(data.Sex == 'female') & (data.Age > 18) & (data.Age < 25) & (data.SibSp == 0) & (data.Parch == 0)].shape

In [None]:
data[(data.Sex == 'female') & (data.Age.between(19, 24)) & (data.SibSp == 0) &(data.Parch == 0)].shape

Создадим новый признак. Подсчитаем сколько всего родственников путешествовало с каждым пассажиром, для этого сложим столбцы SibSp и Parch и поместим сумму в новый столбец FamilySize.

In [None]:
data['FamilySize'] = data['SibSp'] + data['Parch']
data.head(10)

Создадим переменную, которая бы нам показывала, что пассажир ехал в одиночку. Такой пассажир путешествовал без родственников. Напишем условие с помощью lambda функции (1, если FamilySize равно 0 и 0 во всех остальных случаях) и применим ее к столбцу FamilySize с помощью метода .apply().

In [None]:
data['Alone'] = data['FamilySize'].apply(lambda x: 1 if x == 0 else 0)
data.head(10)

Из каждого имени пассажира достанем его титул. Сначала потренируемся на одном пассажире.

In [None]:
data.loc[0]['Name']

In [None]:
data.loc[0]['Name'].split(",")

In [None]:
data.loc[0]['Name'].split(",")[1]

In [None]:
data.loc[0]['Name'].split(",")[1].split(".")

In [None]:
data.loc[0]['Name'].split(",")[1].split(".")[0]

In [None]:
data.loc[0]['Name'].split(",")[1].split(".")[0].strip()

Напишем функцию, которая будет забирать титул из имени, а потом применим ее к колонке Name.

In [None]:
def return_title(full_name):
    return(full_name.split(',')[1].split('.')[0].strip())

Теперь сформируем новый столбец family_name из столбца Name с помощью написанной нами функции:

In [None]:
data['Title'] = data.Name.apply(return_title)
data.head()

Полезно посмотреть, какие значения содержатся в столбце. Для категориальных данных можно посчитать частоту встречаемости каждого значения с помошью функции value_counts:

In [None]:
data['Title'].value_counts()

Очень много уникальных значений с малым количеством частоты встречаемости. Чаще всего это плохо влияет на статистический анализ. Переименуем все такие данные в Misc (другие).

In [None]:
data['Title'] = data['Title'].apply(lambda x: 'Misc' if x not in ['Mr', 'Miss', 'Mrs', 'Master'] else x)

In [None]:
data['Title'].value_counts()

In [None]:
data['Pclass'].value_counts()  # Количество пассажиров в зависимости от класса

In [None]:
data['Embarked'].value_counts()  # В каком порту садились

Для количественных данных удобнее смотреть минимальные/максимальные/средние значения:

In [None]:
print(data['Age'].min())
print(data['Age'].max())
print(data['Age'].mean())

В Pandas есть функция describe(), которая делает удобную сводную таблицу по всем количественным столбцам сразу (обратите внимание, что для Pandas количественные данные = все, что представлено числами, что, разумеется, неверно в общем случае):

In [None]:
data.describe()

    count: общее количество непустых значений
    среднее: среднее значение значений столбца
    std: стандартное отклонение значений столбца
    min: минимальное значение из столбца
    25%: 25 процентилей
    50%: 50 процентилей
    75%: 75 процентилей
    max: максимальное значение из столбца

Процентиль – это значение, которое заданная случайная величина не превышает с фиксированной вероятностью, заданной в процентах.

In [None]:
data['Embarked'].unique()  # Уникальные значения

In [None]:
data[['Age', 'Fare']].describe()  # Также можно применять только к отдельным колонкам

Данные можно сортировать:

In [None]:
data.info()  # Сначала нужно посмотреть информацию

In [None]:
data.isnull()

In [None]:
data.isnull().sum()

In [None]:
data = data.dropna(how = 'any')  # Удалит строку если есть хотя бы один пропуск
data

In [None]:
data.info()

In [None]:
data.sort_values(by=['Age'])  # Сортируем по возрасту, по умолчанию сортировка по возрастанию

In [None]:
data.sort_values(by=['Age'], ascending=False)  # Сортируем по возрасту, теперь по убыванию

In [None]:
data.sort_values(by=['Age', 'Fare'], ascending=False).head(10)  # Сортируем сперва по возрасту (по убыванию),
                                                                # Потом стоимости билета  (по убыванию)

In [None]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True]).head(15)  # Сортируем сперва по возрасту (по убыванию),
                                                                        # Потом стоимости билета  (по возрастанию)

Сохранение датафрейма:

In [None]:
data.to_csv('new_titanic.csv')

# Описательные статистики в Python

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv')

Описание признаков:

**PassengerId** – id пассажира

**Survived** – бинарная переменная: выжил пассажир (1) или нет (0)

**Pclass** – класс пассажира

**Name** – имя пассажира

**Sex** – пол пассажира

**Age** – возраст пассажира

**SibSp** – количество родственников (братьев, сестер, супругов) пассажира на борту

**Parch** – количество родственников (родителей / детей) пассажира на борту

**Ticket** – номер билета

**Fare** – тариф (стоимость билета)

**Cabin** – номер кабины

**Embarked** – порт, в котором пассажир сел на борт: C – Cherbourg, S – Southampton, Q – Queenstown

**Максимальное и минимальное значения**

In [None]:
data.Age.min()

In [None]:
data.Age.max()

**Меры центральной тенденции**

Меры среднего уровня дают усредненную характеристику совокупности объектов по определенному признаку.

В зависимости от типа шкалы измерения применяются следующие меры среднего уровня:
- для количественных данных – среднее значение (арифметическое среднее), медиана, мода

- для категориальных: для порядковых данных – медиана, мода; для номинальных данных – мода

На самом деле таких мер довольно много, например: взвешенное среднее – среднее значение, учитывающее весовые коэффициенты для каждого значения, гармоническое среднее – количество наблюдений, деленное на сумму инвертированных значений наблюдений, и так далее.

**Среднее значение (математическое ожидание)**

*Математическое ожидание* вычисляется по формуле:

$$
 {\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}(x_{1}+\ldots +x_{n})}
 $$

In [None]:
data.Age.mean()

**Немного усложним задачу**

In [None]:
data[['Pclass', 'Age']].groupby('Pclass').mean()  # Среднее в зависимости от класса пассажира

**Медиана**

Если $x_1, x_2, ..., x_n$ – упорядоченные по возрастанию или убыванию числовые значения рассматриваемого признака,
$n$ – объем выборки, то *медиана* – это средний элемент для нечетного  $n$ и полуcумма средних элементов для чётного $n$.

Для порядковой шкалы медиана является такой точкой на шкале, которая делит всю совокупность опрошенных на две равных части – тех, кто отметил градации меньше этой точки (либо равные ей), и тех, кто отметил градации больше этой точки.

In [None]:
data.Age.median()

**Мода**

Мода – значение во множестве наблюдений, которое встречается наиболее часто.

In [None]:
data.Pclass.mode()

In [None]:
data.Pclass.value_counts()

**Меры разброса**

Меры разброса показывают, насколько хорошо данные значения представляют совокупность. Как меры разброса применяются:

- дисперсия случайной величины и среднеквадратическое отклонение

- коэффициент вариации (это отношение среднеквадратического отклонения к среднему значению, выраженное в процентах, показывает однородность выборки)

- и так далее

**Дисперсия и среднеквадратическое отклонение**

*Дисперсия* значений признака является суммой квадратов отклонений этих значений от их среднего, деленной на число наблюдений:
$$
\sigma^2={\dfrac {\sum \limits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)}{n}}^{2}
$$
*Среднеквадратическое отклонение*, *стандартное отклонение* или *стандартный разброс* – квадратный корень из дисперсии, равный $\sigma$

Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

In [None]:
data[['Pclass', 'Age']].groupby('Pclass').std()

**Квантили**

Квантиль – значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем.

Например, фраза «для развитых стран 99-процентиль продолжительности жизни составляет 100 лет» означает, что ожидается, что 99 % людей проживут не более, чем 100 лет.

Относительно нашего датасета фраза "75%-перцентиль возраста пассажиров Титаника равна 38 лет" означает, что 75% пассажиров были не старше 38 лет.

In [None]:
data.Age.describe()

    count: общее количество непустых значений
    среднее: среднее значение значений столбца
    std: стандартное отклонение значений столбца
    min: минимальное значение из столбца
    25%: 25 процентилей
    50%: 50 процентилей
    75%: 75 процентилей
    max: максимальное значение из столбца

Процентиль – это значение, которое заданная случайная величина не превышает с фиксированной вероятностью, заданной в процентах.

In [None]:
data.Age.hist(bins=25)

**Описание массива нечисловых данных**

В качестве базовой описательной статистики для категориальных признаков можно использовать следующий набор характеристик:

- количество уникальных представителей массива

- частоты встречаемости этих представителей

- наиболее часто встречающиеся представители (мода распределения)

- наиболее редко встречающиеся представители

In [None]:
data.Pclass.unique()

In [None]:
data.Pclass.value_counts()

In [None]:
data.Pclass.mode()

## Работа с пропущенными значениями.

Вернемся к info(). Из 891 наблюдения у нас только 714 ненулевых значений. Значит, у этих пассажиров возраст неизвестен.

In [None]:
data.info()

In [None]:
data['Age'].median()  # Вспомним какая у нас медиана

In [None]:
data['Age_Median'] = data['Age'].fillna(data['Age'].median())  # Сохраняю результат заполнения в новую колонку

In [None]:
data.head()  # А у всех остальных – их нормальный возраст

Или можно просто удалить пропущенные значения:

In [None]:
data.dropna()  # По всем колонкам

In [None]:
data.dropna(subset= ["Age"])  # По одному столбцу

Сгруппируем данные по столбцу Survived (выжил пассажир (1) или нет (0))

In [None]:
data.groupby(["Survived"]).groups

Подсчитаем средний возраст по каждой группе

In [None]:
data.groupby(["Survived"])[["Age"]].mean()

Найдем в каждой группе самого пожилого человека и с самое большое количество сопровождающих. Для этого воспользуемся agg(), чтобы применить несколько функций

In [None]:
data.groupby(["Survived"]).agg({"SibSp":max, "Age":max})

Изменим название городов, вместо букв будет полное название

In [None]:
data["Port"] = data["Embarked"].apply(lambda x: "Шербур" if x == "C" else ("Саутгемптон" if x == "S" else "Квинстаун"))

In [None]:
data

In [None]:
data.pivot_table("Survived", index="Pclass", columns="Sex")  # Создадим сводную таблицу

Количество выживших в зависимости от класса, порта посадки и пола

In [None]:
data.pivot_table("Survived", index = ["Pclass", "Port"], columns="Sex")

In [None]:
table = data.pivot_table("Survived", index="Pclass", columns="Sex")
table.plot();

# Pandas – работа с несколькими файлами

In [None]:
import pandas as pd

In [None]:
eur = pd.read_csv("_add_material_lesson_python\eur_quotes.csv")

In [None]:
eur = pd.read_csv("_add_material_lesson_python\eur_quotes.csv", sep = ";")
eur

In [None]:
eur.rename(columns={"price": "eur"}, inplace=True)
eur

In [None]:
usd = pd.read_csv("_add_material_lesson_python\usd_quotes.csv", sep = ";")
usd.rename(columns={"price": "usd"}, inplace=True)
usd

In [None]:
jpy = pd.read_csv("_add_material_lesson_python\jpy_quotes.csv", sep = ";")
jpy.rename(columns={"price": "jpy"}, inplace=True)
jpy

## Объединение по дате

In [None]:
result = pd.merge(eur,
                 usd,
                 on='updated')
result

Посмотрим на размерности получившихся таблиц:

In [None]:
print("eur размерности: {}".format(eur.shape))
print("usd размерности: {}".format(usd.shape))
print("Разность: {}".format(usd.shape[0] - eur.shape[0]))

Сравнение таблиц eur и usd

In [None]:
eur['updated'].isin(usd['updated']).value_counts()  # Даты которые есть в таблице eur, но нет в таблице usd

In [None]:
usd['updated'].isin(eur['updated']).value_counts()  # Даты которые есть в таблице usd, но нет в таблице eur

Сравнение таблиц jpy и usd

In [None]:
usd['updated'].isin(jpy['updated']).value_counts()  # Даты которые есть в таблице usd, но нет в таблице jpy

In [None]:
jpy['updated'].isin(usd['updated']).value_counts()  # Даты которые есть в таблице jpy, но нет в таблице usd

Сравнение таблиц jpy и eur

In [None]:
eur['updated'].isin(jpy['updated']).value_counts()  # Даты которые есть в таблице eur, но нет в таблице jpy

In [None]:
jpy['updated'].isin(eur['updated']).value_counts()  # Даты которые есть в таблице jpy, но нет в таблице eur

## Left merge 

In [None]:
result = pd.merge(jpy,
                 eur,
                 on='updated', how='left')
print("eur размерностиs: {}".format(eur.shape))
print("jpy размерности: {}".format(jpy.shape))
print("result размерности: {}".format(result.shape))
print("Всего {} пропущенных значений.".format(
        result['eur'].isnull().sum()))

# Все те даты которые были в левой таблице останутся. Для тех значений, которые отсутствуют в правой будет стоять Nan

In [None]:
result

## Right merge 

In [None]:
result = pd.merge(jpy,
                 eur,
                 on='updated', how='right')
print("eur размерностиs: {}".format(eur.shape))
print("jpy размерностиs: {}".format(jpy.shape))
print("result размерности: {}".format(result.shape))
print("Всего {} пропущенных значений.".format(
        result['jpy'].isnull().sum()))

# Все те даты которые были в правой таблице останутся. Для тех значений, которые отсутствуют в левой будет стоять Nan

In [None]:
result

## Outer merge 

In [None]:
print("Всего {} уникальных значений для updated.".format(
        pd.concat([jpy['updated'], eur['updated']]).unique().shape[0]))

result = pd.merge(jpy,
                 eur,
                 on='updated', how='outer', indicator=True)

print("Получаем в таблице {} строк.".format(result.shape))

# Забираем данные из обеих таблиц, если данных нет, то ставим пропуски

In [None]:
result

## Final merge

Если необходимо выполнить merge для трех и более таблиц, то это делается поэтапно, сначала две, потом к полученному результату третью и т.д.

In [None]:
result = pd.merge(jpy,
                 eur,
                 on='updated')

In [None]:
result = pd.merge(result,
                 usd,
                 on='updated')

In [None]:
result

In [None]:
result.describe()

In [None]:
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import numpy as np

In [None]:
plt.plot(result["updated"], result["jpy"])
plt.plot(result["updated"], result["eur"])
plt.plot(result["updated"], result["usd"])

In [None]:
fig, ax = plt.subplots()
ax.plot(result['updated'], result['jpy'], label='JPY')
ax.plot(result['updated'], result['eur'], label='EUR')
ax.plot(result['updated'], result['usd'], label='USD')

In [None]:
result_2 = result[::-1]
result_2

In [None]:
fig, ax = plt.subplots()
ax.plot(result_2['updated'], result_2['jpy'], label='JPY')
ax.plot(result_2['updated'], result_2['eur'], label='EUR')
ax.plot(result_2['updated'], result_2['usd'], label='USD')

# Добавление легенды
plt.legend()

# Установка названия оси X
ax.set_xlabel('Date')

# Установка названия оси Y
ax.set_ylabel('Currency')

# Установка заголовка графика
plt.title('Currency Rates')

# Отображение сетки
plt.grid(True)

ax.xaxis.set_major_locator(mdates.DayLocator(interval=180))
ax.tick_params(axis='x', labelrotation=90)

# Отображение графика
plt.show()