## Постановка задачи

Для изучения машинного обучения мы возьмем данные популярного соревнования data science с международной платформы Kaggle (https://www.kaggle.com/c/titanic).

**Задача** звучит так: необходимо создать модель машинного обучения, которая предсказывает, кто из пассажиров пережил кораблекрушение «Титаника».

В процессе подготовки и обучения будем использовать два датасета: 
*  **train.csv** — часть набора данных для создания модели (обучающая выборка), содержит 12 полей;
*  **test.csv**  — часть набора данных для проверки модели (тестовая выборка), содержит 11 полей.

### Обучающая выборка

Переменные:

* Passengerld — идентификатор пассажира
* Survival    — поле, где указано, выжил человек (1) или нет (0)
* Pclass      — класс каюты (первый класс - 1, второй класс - 2, третий класс - 3)
* Name        — имя пассажира
* Sex         — пол пассажира
* Age         — возраст пассажира
* SibSp       — количество родственников на борту 2-го порядка (братья, сестры, муж, жена)
* Parch       — количество родственников на борту 1-го порядка (мать, отец, дети)
* Ticket      — номер билета пассажира
* Fare        — цена билета пассажира
* Cabin       — поле указывает, в какой каюте размещается пассажир
* Embarked    — порт посадки на корабль (C - Cherbourg, Q - Queenston, S - Southampton)


### Представление файла [Текст ссылки](https://drive.google.com/file/d/1m_Vhx9DtQMXzH3FVt0lNPJm51SQerZ3F/view)train_mini.csv в MS Excel




### Подключаем основные библиотеки

In [4]:
# Библиотека Pandas предлагает очень удобные инструменты для хранения данных и работы с ними.
import pandas as pd

### Чтение данных из файла

In [10]:
df = pd.read_csv("train.csv", index_col = 'PassengerId') 


In [9]:
dt = pd.read_csv("test.csv", index_col = 'PassengerId')  #Загружаем данные тестовой выборки из файла test

In [None]:
df.head()  #Возвращаем строки файла train (по умолчанию первые 5)

### Методы для вывода информации о датафрейме

* **.shape**   — количество строк и колонок в датафрейме
* **.columns** — название колонок
* **.index**   — индексирование строк
* **.dtypes**  — типы данных каждой колонки

### Основная информация о датасете

In [None]:
print(df.shape) #Размер датафрема с обучающей выборкой

In [None]:
print(dt.shape) #Размер датафрема с тестовой выборкой

In [None]:
print(df.columns) #Названия признаков (колонок) файла train

In [None]:
print(dt.columns) #Названия признаков файла test

In [None]:
print(df.dtypes) #Типы данных файла train

In [None]:
print(dt.index) #Индексация строк файла test

### Индексация и извлечение данных

In [None]:
df['Survived'].head(10) #Просмотр только одного признака (Survived), вывод первых 10 элементов

### Атрибут .loc
Метод .loc[строка, столбец] даёт доступ к элементу по строке и по столбцу: 
 1. Одна ячейка — .loc[7, 'название столбца']
 2. Один столбец — .loc[:,'название столбца']
 3. Несколько стобцов — .loc[:,['название столбца','название столбцов']]
 4. Несколько столбцов подряд (срез) — .loc[:,'login','pass']
 5. Одна строка — .loc[1]
 6. Все строки, начиная с заданной — .loc[1:]
 7. Все строки до заданной — .loc[:3]
 8. Несколько строк подряд (срез) — .loc[2:5]

In [None]:
df.loc[2:5, 'Pclass':'SibSp'] #Пример использования атрибута .loc

In [None]:
df.iloc[2:5, 1:5] #Индексирование на основе целочисленного местоположения для выбора по позиции

In [None]:
df[-2:] #Вывод последних строк таблицы

### Иформация о признаках

In [None]:
df.head()  #Возвращение строк файла train

In [None]:
print(df.info()) #Этот метод показывает информацию о датафрейме, включая индекс, 
# тип столбца, ненулевые значения и использование памяти.

In [None]:
 dall = pd.concat([df, dt], sort=False) #Объединение обучающей и тестовой выборок df и dt и сохранение в переменную dall

In [None]:
df.shape #Возвращает размерность файла train

In [None]:
dt.shape #Возвращает размерность файла test

In [None]:
dall.shape #Возвращает размерность объедененных записей

In [None]:
df = df.drop('Cabin', axis = 1) #Удаление колонки признака Cabin

In [None]:
df = df.dropna() #Удаление всех строк, содержащих значения None

In [None]:
df.shape #Возвращает размерность файла train после удаления значений None и признака Cabin

In [None]:
df['Survived'].value_counts() #Возвращает серию, содержащую количество уникальных значений

In [None]:
df['Survived'] = df['Survived'].astype(bool) #Перекодировка признака Survived:  0 - не выжил, 1 - выжил

In [None]:
df['Survived'].value_counts() #Возвращает перекодированные значения

In [None]:
df['Survived'] = df['Survived'].astype(int) #Перекодировка по типу

In [None]:
df['Survived'].value_counts()

In [None]:
df['Sex'].value_counts() #Возвращаем серии колонки Sex

In [None]:
sex = {'male':0, 'female':1} #Перекодируем значения в словаре sex: male заменяем на 0, а female - 1. 
df['Sex'] = df['Sex'].map(sex) #Метод map используют для замены каждого значения в серии другим значением. В нашем случае замена из словаря sex.

In [None]:
df['Sex'].value_counts(normalize=True) #Определяем процентное соотношение мужчин и женщин

In [None]:
df['Embarked'].value_counts()  #Выводим значения признака Embarked

In [None]:
emb = {'Q':0, 'C':1, 'S':2} #Создаем словарь соответствия для признака
df = df.replace({'Embarked':emb}) #Заменяем значения признака 'Embarked' на значения словаря emb

In [None]:
df.head() #Как видно столбец Embarked изменился и теперь мы можем рассчитать соотношение

In [None]:
df.describe()# Метод .describe анализирует как числовые признаки, так и категориальные, а также наборы столбцов смешанных типов данных. 
            #Вывод зависит от представления статистических характеристик.

In [None]:
df.describe(include=['object', 'bool']) #Использование метода .describe для нечисловых признаков

In [None]:
df['Age'].mean() #Опеределяем средний возраст пассажиров «Титаника»

In [None]:
df[df['Survived'] == 1].mean() #Найдем среднее значение всех признаков для выживших пассажиров

In [None]:
df[df['Survived'] == 0]['Age'].mean() #Средний возраст погибших пассажиров

In [None]:
df[(df['Survived'] == 1) & (df['Sex'] == 1)]['Fare'].min() #Средний возраст выживших пассажиров-мужчин по стоимости билета (Fare)

In [None]:
import numpy as np #Подключение библиотеки Numpy

In [None]:
df.apply(np.max)  #Метод .max выводит максимальные данные признаков в датафрейме

In [None]:
df.apply(np.max)['Age'] #Определяем максимальный возраст среди пассажиров

In [None]:
np.mean(df,0)['Age'] #Находим средний возраст в датафрейме train 

In [None]:
np.mean(dt,0)['Age'] #Находим средний возраст в датафрейме test

In [None]:
np.mean(dall,0)['Age'] #Находим средний возраст в объединенном датафрейме dall

In [None]:
df[df['Fare'].apply(lambda fare: fare > 100)].head() #Используем функцию labda, чтобы посмотреть признак fare > 100

### Сортировка

In [None]:
df.sort_values(by = 'Pclass', ascending = True).head() #Сортировка пассажиров по возрастанию значения признака Pclass (asceding = True), аргумент asceding = False сортирует данные по убыванию признака. 

In [None]:
df.sort_values(by = ['Survived', 'Fare'], ascending = [True, False]).head #Cортировка датафрейма по двум признакам

### Методы группировки данных

In [None]:
columns_to_show = ['Age', 'Fare']
df.groupby(['Survived'])[columns_to_show].describe(percentiles=[]) #Метод .groupby группирует данные по признаку Survived. Аргумент percentiles пропускает квартили

In [None]:
#Метод .agg позволяет точнее задать необходимые статистические характеристики
df.groupby(['Survived'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

### Методы создания сводных таблиц

In [None]:
#Метод .crosstab создает сводную таблицу 
pd.crosstab(df['Survived'], df['Pclass']) #Создаем сводную таблицу по признакам класса проезда пассажира и выживанию

In [None]:
#Методом .pivot_table также можно создать сводную таблицу. В первых аргументах записаны интересующие признаки. В аргументе aggfunc сохраняем признак, по которому идет ранжирование (медиана)
df.pivot_table(['Age', 
                'Fare'], ['Pclass'], 
               aggfunc='median').head()

### Добавление новых признаков

In [None]:
df.head()

In [None]:
#insert - позволяет добавить новый признак
smth = df['Age'] + df['Fare'] + \
              df['Parch'] + df['Embarked']
df.insert(loc=len(df.columns), column='Smth', value=smth) #Добавляем в конец призрак Smth, в котором складываются Age, Fare, Parch, Embarked 
df.head()

In [None]:
#Второй способ добавить признак в базу данных
df['One_more'] = df['Age'] + df['Fare'] + \
              df['Parch'] + df['Embarked']
df.head()