Хочу сделать небольшую статью в первую очередь для начинающих специиалистов в Data Science, к которому они смогли бы обращаться, когда необходимо что-то вспомнить при решении задач или при подготовке к собеседованию.

Начнем с того, что необходимо знать стажеру. 

Список может быть огромным, но все в первую очередь он зависит от задач, которых вам будет ставить реководитель. 

Постараюсь подытожить все темы, которые, как, мне кажется, необходимы специалисту для того, чтобы удачно начать выполнять работу.

# Импорт и экспорт данных

Pandas — одна из самых популярных библиотек Python для аналитики и работы с Data Science. Pandas позволяет работать с двухмерными таблицами данных в Python. У нее есть и масса других особенностей.

In [1]:
import pandas as pd

Для чтения файла понадобится функция read_csv. Рассмотрим ее параметры:


*   sep - разделитель (по умолчанию ',')
*   names - список имен столбцов


In [2]:
df = pd.read_csv("titanic.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


Вывод первых 5 строк - df.head()

Вывод последних 5 строк - df.tail()

Вывод 5 случайных строк - df.sample(5)

С помощь метода sample() можно перемешивать весь DataFrame:

df.sample(frac = 1, random_state = 42).reset_index(drop = True)

Для того, чтобы экспортировать обработанный DataFrame в Excel, необходимо использовать функцию to_excel.

In [None]:
# sheet_name = 'sheet1' - номер листа, на который будут сохранены данные
# index = False - индекс не будет сохранен в файл

df.to_excel('df_data.xlsx', sheet_name = 'sheet1', index = False)

# Также можно настроить вывод таблицы по вашему желанию.

С помощью **pd.set_option** настроим вывод так чтобы:


*   количество строк в таблице было не больше 5;
*   текст в ячейке отражался полностью вне зависимости от длины (это удобно, если в ячейке длинный заголовок или URL, которые хочется посмотреть);
*   все числа отражались с двумя знаками после запятой;

In [None]:
pd.set_option('max_rows', 5)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.float_format', '{:.2f}'.format)

Если нужно вернуть настройки к дефолтным, используем pd.reset_option. Например, так, если хотим обновить все настройки разом:


**pd.reset_option('all')**

In [None]:
pd.reset_option('all')

As the xlwt package is no longer maintained, the xlwt engine will be removed in a future version of pandas. This is the only engine in pandas that supports writing in the xls format. Install openpyxl and write to an xlsx file instead.

: boolean
    use_inf_as_null had been deprecated and will be removed in a future
    version. Use `use_inf_as_na` instead.



: boolean
    use_inf_as_null had been deprecated and will be removed in a future
    version. Use `use_inf_as_na` instead.



# Предпросмотр данных

Полезные функции для того, чтобы посмотреть на размер данных, названия признаков и их типы

In [None]:
df.shape

(418, 12)

In [None]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [None]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Метод info( ) - показывает информацию о наборе данных, индекс, столбцы и тип данных, ненулевые значения и использование памяти.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Survived     418 non-null    int64  
 2   Pclass       418 non-null    int64  
 3   Name         418 non-null    object 
 4   Sex          418 non-null    object 
 5   Age          332 non-null    float64
 6   SibSp        418 non-null    int64  
 7   Parch        418 non-null    int64  
 8   Ticket       418 non-null    object 
 9   Fare         417 non-null    float64
 10  Cabin        91 non-null     object 
 11  Embarked     418 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 39.3+ KB


Метод describe() показывает количество строк в столбце - count, среднее значение столбца - mean, столбец стандартное отклонение - std, минимальные (min) и максимальные (max) значения, а также границу каждого квартиля - 25%, 50% и 75%. Любые значения NaN автоматически пропускаются.

In [None]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,0.363636,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.481622,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,0.0,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,0.0,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,1.0,3.0,39.0,1.0,0.0,31.5
max,1309.0,1.0,3.0,76.0,8.0,9.0,512.3292


По умолчанию, метод describe( ) пропускает строки и столбцы не содержащие чисел - категориальные признаки. Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре **include**. Можно также задать **include='all'**, чтоб вывести статистику по всем имеющимся признакам.

# Работа с пропущенными значениями (удалить, заменить (медианами, средними))

Есть два метода обнаружения недостающих данных: - isnull() и notnull().

Результатом является логическое значение, указывающее, действительно ли значение, переданное в аргумент, отсутствует. «Истина» ( True ) означает, что значение является отсутствующим значением, а «Ложь» ( False ) означает, что значение не является отсутствующим.

In [None]:
df.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

In [3]:
# Пропущенные значения заполнить средним значением

df['Age'].fillna(df['Age'].mean(), inplace = True)
df['Fare'].fillna(df['Fare'].mean(), inplace = True)

# Пропущенные значения заполнить медианами - df['Age'].fillna(df['Age'].median(), inplace = True)
# Пропущенные значения заполнить нулями - df['Age'].fillna(0)
# Пропущенные значения заменить значениями - df['Embarked'].replace(np.nan, 'S', inplace = True)

In [4]:
# Удалить столбец можно следующим образом

df.drop(['Cabin'], axis = 1, inplace = True)

# Виды данных (категориальные, порядковые, дискретные, непрерывные, временной ряд)

> Категориальные данные

Категориальные данные представляют собой характеристики (пол человека, язык  и т.д.). Категориальные данные также могут принимать числовые значения (например: 1 для женщины и 0 для мужчины). 

> Порядковые данные

Порядковые значения представляют собой дискретные и упорядоченные единицы. Используются для измерения нечисловых характеристик, таких как счастье, удовлетворенность клиентов и так далее.

> Числовые данные

1. Дискретные данные
Представляют различные и разделенные значения. Этот тип данных не может быть измерен, но он может быть подсчитан. Примером является количество голов в 100 монетах.

2. Непрерывные данные
Представляют измерения и, следовательно, их значенияне могут быть подсчитаны и они могут быть измерены. Примером может служить рост человека, который можно описать с помощью интервалов в строке действительных чисел.

3. Интервальные данные
Представляют упорядоченные единицы, которые имеют одинаковую разницу. Примером может служить функция, которая содержит температуру определенного места. С помощью интервальных данных мы можем складывать и вычитать, но мы не можем умножать, делить или вычислять отношения. Поскольку истинного нуля нет, множество описательной и логической статистики не может быть применено.

# Работа с категориальными данными

Кодирование категориальных признаков - процедура, которая представляет собой некоторое преобразование категориальных признаков в численное представление.

**Label Encoder**

Данный тип кодирования является наиболее часто используемым, преобразование представляет собой однозначное соответствие число <-> уникальное значение категориального признака.

Первое значение кодируется нулем, второе единицей, и так далее, последнее кодируется числом, равным количеству уникальных значений минус единица.

In [None]:
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()
df_new = labelencoder.fit_transform(df.Sex)
df_new[:10]

array([1, 0, 1, 1, 0, 1, 0, 1, 0, 1])

In [None]:
# Посмотрим  на закодированные значения с помощью метода classes_

labelencoder.classes_

array(['female', 'male'], dtype=object)

**One-Hot Encoder**

Данный тип кодирования, основывается на создании бинарных признаков, которые показывают принадлежность к уникальному значению. 



```
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder()
```



# Нормировка данных с помощью нормализации или стандартизациии

Иногда нормализацию данных называют стандартизацией, однако это неверно. Стандартизация это более широкое понятие и подразумевает предобработку с целью приведению данных к единому формату и представлению, наиболее удобному для использования определённого вида обработки. В отличии от нормализации, стандартизация может применяться и к категориальным данным.

MinMaxScaler, RobustScaler, StandardScaler, и Normalizer это методы из библиотеки scikit-learn подготовки данных для машинного обучения.

In [None]:
from sklearn import preprocessing

In [None]:
import matplotlib as plt

In [None]:
import seaborn as sns

In [None]:
df = df[['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch','Fare']]

**MinMaxScaler**

Из каждого значения признака, MinMaxScaler вычитает минимальное значение признака и делит на диапазон. Диапазон это разница между минимумом и максимумом этого признака.

MinMaxScaler сохраняет форму исходного распределения. Он не меняет содержательно информацию содержащуюся в исходных данных.

Заметьте, что MinMaxScaler не снижает важность выбросов.

Диапазон по умолчанию для признака после MinMaxScaler находится между 0 и 1.

```
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
```
```
from sklearn.preprocessing import MinMaxScaler
>>> scaler = MinMaxScaler()
```
[MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html?highlight=minmaxscaler#sklearn.preprocessing.MinMaxScaler)

**RobustScaler** преобразует вектор признака вычитая медиану и деля на межквартильный размах (75% значение — 25% значение).

RobustScaler не масштабирует данные в предопределенный интервал как MinMaxScaler. Он не удовлетворяет строгому определению масштабирования, которое я дал ранее.

Заметим, что диапазон для каждого признака после применения RobustScaler больше чем он был для MinMaxScaler.

Используйте RobustScaler если вы хотите **уменьшить эффект от выбросов** по сравнению с MinMaxScaler.

```
from sklearn.preprocessing import RobustScaler
>>> transformer = RobustScaler()
```
[RobustScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html?highlight=robustscaler)

**StandardScaler** стандартизирует признак вычитая среднее и затем масштабируя к единчной дисперсии. Единичная дисперсия значит деление все значений на стандартное отклонение.

В результате применения StandardScaler мы получаем распределение со стандартным отклонением равным 1. StandardScaler делает среднее распределения равным 0.

```
from sklearn.preprocessing import StandardScaler
>>> scaler = StandardScaler()
```

[StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html?highlight=standardscaler#sklearn.preprocessing.StandardScaler)

**Normalizer** работает на строках, не на столбцах!

По умолчанию, к каждому наблюдению применяется L2 нормализация, так чтобы значения в строке имели единичную норму. Единичная норма в L2 значит, что если мы возведем в квадрат каждый элемент и просуммируем их, в результате получим 1. В качестве альтернативы L2 можно использовать, L1 (манхеттенскую) нормализацию.

Normalizer преобразует все признаки в значения между -1 и 1.

[Normalizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html?highlight=normalizer#sklearn.preprocessing.Normalizer)

```
from sklearn.preprocessing import Normalizer
>>> transformer = Normalizer().
```



Советы:
1. Используйте StandardScaler если вам нужно, чтобы у признака было нулевое среднее и единичное отклонение. Если вам нужны более нормально распределенных данные и допустимо преобразовывать данные, попробуйте метод scikit-learn QuantileTransformer(output_distribution='normal').
2. Используйте MinMaxScaler, если хотите легкого преобразования. Он не искажает.
3. Вы можете использовать RobustScaler если в данных есть выбросы и вы хотите уменьшить их влияние.
4. Используйте Normalizer аккуратно — он нормализует строки данных, а не признаки. Он может использовать L2 или L1 нормализацию.

# Разделение датасета на обучающую, тестовую выборку

Важные параметры:

1. test_size - представляет долю набора данных для включения в тестовое разделение. 

2. random_state - управляет перетасовкой, применяемой к данным перед применением разделения. Передайте int для воспроизводимого вывода через несколько вызовов функций.

```
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0,33, random_state=42)
```
Замечания:

1. train_test_split по умолчанию автоматически перемешивает данные (вы можете переопределить это, установив для параметра shuffle значение False)

2. Стратификацию (равномерное распределение) классов мы можем задать при разделении с помощью параметра stratify. Стоит отметить, что мы будем стратифицировать в соответствии распределению по классам в y

3. Если вы хотите использовать датасеты для тестирования и валидации, создать их с помощью train_test_split легко. Для этого мы разделяем весь набор данных один раз для выделения обучающей выборки. Затем еще раз, чтобы разбить оставшиеся данные на датасеты для тестирования и валидации.



```
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    train_size=0.7, 
                                                    random_state=42,
                                                    stratify=y)

print(f"Количество строк в y_train по классам: {np.bincount(y_train)}")
print(f"Количество строк в y_test по классам: {np.bincount(y_test)}")
```



```
X_test, X_val, y_test, y_val = train_test_split(X_test, y_test, 
                                                    train_size=0.5, 
                                                    random_state=42,
                                                    stratify=y_test)

print(f"Количество строк в y_test по классам: {np.bincount(y_test)}")
print(f"Количество строк в y_val по классам: {np.bincount(y_val)}")
```




