# Анализ данных и машинное обучение в среде разработки Anaconda

Целью данной курсовой работы будет:

* Получение навыков работы в среде Anaconda.
* Анализ данных с использованием языка Python и библиотек pandas и numpy. Визуализация данных с использованием языка Python и библиотек matplotlib и seaborn.
* Практическое применения алгоритмов машинного обучения с использованием языка Python и библиотеки sklearn.

Данная работа в первую очередь ориентирована на практическое применение инструментов, поэтому многие теоретические аспекты некоторых вопросов (например, алгоритмов машинного обучения) будут опущены. Результат работы представлен в виде .pdf отчёта из интерактивной среды Anaconda, содержащий все необходимые выкладки и блоки программного кода.

## Часть 1. Анализ данных

Для начала, пару слов про среду разработки, в которой я работал. Anaconda — интерактивная среда разработки, созданная в первую очередь для нужд анализа данных и машинного обучения. Anaconda бесплатна и по умолчанию поставляется с ядром Python и необходимыми тематическими библиотеками для него. Помимо этого, в Anaconda можно установить другие ядра, и, соответственно, добавить поддержку других языков программирования. Например, также популярного в анализе данных языка R.

Anaconda работает с документами в формате .ipynb. Эти документы называются ноутбуками. Средство для работы с ноутбуками в Anaconda называется jupiter (недавно оно носило название ipython). Ноутбук представляет из себя рабочее пространство, состоящее из ячеек. Эти ячейки бывают разных типов: в них могут находится исходных код, текст (Markdown разметка), графики, изображения или формулы (LaTeX). Текст, который вы сейчас читатете помещён в ячейку типа "текст".


Исходный код, размещённый в блоках, выполняется поблочно. Контекст (переменные, функции и т.д.) из вышележащих блоков доступен в нижележащих.

### Постановка задачи

В машинном обучении и анализе данных важно чётко определить цели и задачи.

Установим цели для блока анализа данных:

* Понять структуру данных.
* Проанализировать статистические особенности данных.
* Визуализировать данные и постараться найти закономерности, которые могут помочь нам с задачей машинного обучения.

Задача поставлена. Начнём с подключения необходимых в этой части работы библиотек. Для этого используется команда import в языке Python. Обратите внимание, что некоторые библиотеки подключены с использованием короткого псевдонима (с помощью ключевого слова as).

In [1]:
import re

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn
%matplotlib inline

### Обзор датасета

В данной работе я буду оперировать данными пассажиров печально известного Титаника, затонувшего 15 апреля 1912 года в северной части Атлантического океана. 14 апреля во время первого рейса самый большой на тот момент океанский лайнер с 2208 людьми на борту по касательной столкнулся с айсбергом и получил серьёзные повреждения обшивки корпуса. Спустя 2 часа 40 минут — в 2:20 15 апреля полностью ушёл под воду. Катастрофа унесла жизни, по разным данным, от 1495 до 1635 человек.

Данные о 891 человеке, находившимся на борту, хранятся в .csv файле. Считаем его с помощью функции read_csv, которую предоставляет библиотека Pandas. Результат чтения сохранится в переменную data, тип которой — DataFrame. Этот тип данных используется в Pandas для того, чтобы удобно оперировать с табличными данными.

In [2]:
data = pd.read_csv('data.csv', index_col='PassengerId')

С помощью метода head нашего объекта data выведем первые 5 строчек таблицы. Это необходимо для того, чтобы посмотреть на структуру данных.

In [3]:
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


В анализе данных и машинном обучении данные почти всегда представляются в виде таблиц. В таких таблицах строки — это объекты, а столбцы — признаки объектов. Например, первая строка описывает отдельного человека, мужчину 22 лет, которого зовут Braund, Mr. Owen Harris.

Важно отметить, что какой-то один признак является целевым. Наш алгоритм машинного обучения (мы будем заниматься задачей бинарной классификации), который мы будем строить в следующей части, будет пытаться правильно предсказать этот признак для каждого объекта на основе других признаков этого объекта. В нашей задаче мы будем предсказывать значение признака "Survived", т.е. будем пытаться предсказать выжил человек или нет. Но подробнее об этом мы будем говорить в следующей части.

В нашем случае все признаки интерпретируемые и конкретно означают какуюто особенность объекта. Но так бывает не всегда. Давайте разберёмся, что означает каждый признак.

- survival — выжил человек, или нет (1, или 0)
- pclass — класс пассажира (1 = первый; 2 = второй; 3 = третий)
- name — Имя
- sex — Пол
- age — Возраст
- sibsp — Количество братьев и сестер, или супруг на борту
- parch — Количество родителей или детей на борту
- ticket — Номер билета
- fare — Плата за проезд
- cabin — Номер каюты
- embarked — Порт посадки (C = Cherbourg; Q = Queenstown; S = Southampton)

Ещё один небольшой шаг перед тем как погружаться в работу с самими данными. С помощью метода info нашего DataFrame можно получить сводную информацию у строках нашей таблицы.

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
Survived    891 non-null int64
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Ticket      891 non-null object
Fare        891 non-null float64
Cabin       204 non-null object
Embarked    889 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


Согласно выводу этого метода можно заключить, что в наших данных всего 891 объект (пассажир). Так же мы видим информацию о каждой колонке (признаке): название признака, количество непустых значений и тип данных признака.

Тут мы и столкнулись с первой проблемой — не у всех объектов заполнены все признаки. Так, например, в нашей таблице у 177 объектов не указан пол, у 687 объектов не указана каюта и у двух объектов отсутствует порт посадки.

Ещё в конце вывода можно заметить количество используемой памяти. В нашем случае датасет маленький — он занимает всего 83.6 KB.