# Методичка-шпаргала по Методам и Алгоритмам обработки данных
Автор: Тима Бовт 

## Библиотеки

В анализе данных и смежных с ним дисциплинах есть набор основных библиотек, которые принято использовать для работы с данными. 

Основной библиотекой для предварительной обратки данных является библиотека Pandas (https://pandas.pydata.org). Она строится поверх библиотеки NumPy (https://numpy.org). В синергии с этими библиотеками также принято использовать matplotlib (https://matplotlib.org) и seaborn (https://seaborn.pydata.org) для графического отображения данных.
Основное, что важно понимать:

- NumPy (np) -- линал на Python;
- Pandas (pd) -- удобная работа с наборами данных;
- Matplotlib (plt) -- визуализация данных (визуализация для натуралов)
- Seaborn (sns) -- более красивая визуализация (визуализация для гламурных п)

В начале любого ноутбука принято инициализировать все необходимые для работы библиотеки. В частности, инициализируем все перечисленные библиоетки

In [3]:
import numpy as np # принято обозначать строго через np !!
import pandas as pd # принято обозначать строго через pd !!
import matplotlib as plt # принято обозначать строго через plt !!
# для отображения графиков внутри ноутбука
%matplotlib inline 
import seaborn as sns # принято обозначать строго через sns !!

Эти команды далее можно копировать от ноутбука к ноутбуку без изменения. Иногда жти библиотеки могут быть не предустановлены в IDE. Чтобы это исправить, обычно достаточно прописать в консоли или блоке кода :

In [7]:
!pip install pandas, numpy, matplotlib, seaborn

[31mERROR: Invalid requirement: 'pandas,'[0m[31m
[0m

## Начало работы с данными

Для примера возьмем набор данных (далее dataframe/датафрейм) 'Titanic', который является базовым при изучении анализа данных (если не ирисы Фишера). 

Скачать его можно по ссылке
https://www.kaggle.com/c/titanic/data

Мы имеем 3 следующих файла

![image.png](attachment:26ca03cd-6b6d-4cb7-a3e6-0019fd750d55.png)

Файлы с данными в анализе данных в большинстве случаев имеют расширение *.csv, потому что библиотека pandas умеет корректно считывать данные именно с такого расширения. Сами же файлы *.csv могут быть открыты с помощью Excel и представляют собой обычную ехель-таблицу

![image.png](attachment:74f2e7b2-2626-46c0-9376-e3c91e1d48f7.png)

В директории с нашим ноутбуком создадим папку "data", в которую и закинем эти файлы. 

Пока что мы не будем вдаваться в то, за что отвечает каждый из файлов. Возьмем один из них, к примеру, train.csv, и загрузим его в наш ноутбук, чтобы посмотреть на его содержимое внутри ноутбука. Делается это всегда следующей командой:

In [8]:
pd.read_csv('data/train.csv')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Но обычно принято далее работать с этими данными. Поэтому сохраним эти данные в некоторую переменную, а затем уже посмотрим, что хранится в этой переменной

In [9]:
data = pd.read_csv('data/train.csv')

Причем нас не интересуют все данные, мы начнем с малого -- рассмотрим первые 5 объектов. Сделать это можно следующей командой:

In [11]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Итак, мы имеем представление крайне схожее с Excel-таблицей. Сверху у нас названия столбцов, слева индексация строк. Каждая строка называется **объектом**, а каждый столбец -- **признаком**, или **фичей**. Далее мы будем придерживаться таких именований. 

Рассмотрим один объект (первый). У него есть признаки разных типов -- строковые и числовые. Также есть и пропущенные значения -- NaN.

В рамках этой дисциплины принято использовать 4 основных шкалы измерения для данных:

In [16]:
pd.read_csv('data/measurement_scales.csv').replace(r'\n',' ', regex=True) 

Unnamed: 0,Шкала,Основные свойства,Общие примеры,Примеры из маркетинга и социологии,Аналитические методы дескриптивные,Аналитические методы статистика вывода
0,номинальная,Числа идентифицируют и классифицируют объекты,"Номер паспорта, номер футболиста","Марка, тип магазина, пол, цвет, место работы...","Процент, мода","Хи-квадрат, биноминальный тест"
1,порядковая,Числа описывают взаимоположение объектов от...,"Рейтинг, место в турнире","Рейтинг предпочтений, позиция на рынке, соци...","Процентиль, медиана","Ранговая корреляция, критерий Фридмана, крите..."
2,интервальная,Различия (дистанции) между объектами можно с...,Температура (по Цельсию или Фаренгейту),"Отношения, мнения, потребительский индекс","Диапазон, среднее арифметическое, дисперсия,...","Корреляционный анализ, t-тест, дисперсный ана..."
3,отношения,"Фиксированная нулевая точка, поэтому возможн...","Длина, вес, рост, время, деньги","Возраст, доход, затраты, продажи, доля рынка","Среднее геометрическое, среднее гармоническое",Коэффициент вариации


Например, в нашем случае 

- номинальная: Name, Sex, Ticket, Cabin, Embarked
- порядковая: Pclass
- интервальная: отсутствуют (могла бы быть, например, удовлетворенность поездкой)
- отношения: Age, Fare

## Базовые статистические характеристики данных

Сейчас будет немного определений из ТВиМС, которые вы вероятно знаете. Но это нужно, чтобы сопоставить один к одному.

$\bullet$ Данные, которые мы имеем называются **случайной выборкой**.

$\bullet$ Один столбец называется **случайной величиной**.

У случайной величины есть основные статистические характеристики, которые применяются для предварительного анализа данных. Возьмем в рассмотрение случайную величину
$$X = \{Fare\} = \{x_1,\ldots,x_N\},$$
то есть наш столбец из датафрейма:

In [18]:
X = data['Fare']
X

0       7.2500
1      71.2833
2       7.9250
3      53.1000
4       8.0500
        ...   
886    13.0000
887    30.0000
888    23.4500
889    30.0000
890     7.7500
Name: Fare, Length: 891, dtype: float64

Для этой случайной величины мы можем посмотреть описательные статистики. Сначала мы рассмотрим конкретные команды для основных описательных статистик, а потом одну команду, которая выводит все общие описательные статистики. 

**Математическое ожидание**.
В условиях случайной выборки математическое ожидание равносильно арифметическому среднему всех значений случайной величины.
$$\mu = \mathbf EX = \sum\limits_{i=1}^Nx$$
Вычислить среднее можно с помощью следующей команды:

In [19]:
X.mean()

32.204207968574636

**Мода.**
Значение случайной величины, которое встречается чаще всего
$$m = \underset{i=1,\ldots,N}{\operatorname{argmax}}P(X = x_i)$$
Вычислить моду можно с помощью следующей команды:

In [20]:
X.mode()

0    8.05
Name: Fare, dtype: float64

**Медиана.** Среднее по порядку значение 
$$M=F_X^{-1}(0.5),$$
где $F_X$ -- функция распределения СВ $X$.

Вычислить медиану можно с помощью следующей команды:

In [23]:
X.median()

14.4542

**Стандартное (среднеквадратичное) отклонение**. Отклонение случайной величины от среднего значения
$$\sigma = \sqrt{DX} = \sqrt{\dfrac{\sum\limits_{i=1}^N (x_i - \mu)^2}{N}}$$
Вычислить стандартное отклонение можно с помощью следующей команды:

In [26]:
X.std()

49.6934285971809

Есть также и остальные описательные статистики. С помощью команды describe мы можем вывести сразу большинство из них (количество, среднее, отклонение, минимальное значение, 1/4-квантиль, 1/2-квантиль, 3/4-квантиль, максимальное значение)

In [25]:
X.describe()

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: Fare, dtype: float64

## Визуализация данных