# Работа с библиотекой Pandas. 

На этой практике мы не только научимся работать с Pandas, но и поучаствуем в первом соревновании по машинному обучению. Ссылка на само соревнование:
https://www.kaggle.com/c/titanic

## Скачивание данных

Для начала, работая с данными с платформы Kaggle, нам необходимо их скачать. Все данные находятся в репозитории нашего курса, так что просто склонируем репозиторий точно так же, как мы делали это на занятии.

In [None]:
!git clone https://github.com/ViktorVlasov/ML_COURSE

Cloning into 'ML_COURSE'...
remote: Enumerating objects: 21, done.[K
remote: Counting objects:   4% (1/21)[Kremote: Counting objects:   9% (2/21)[Kremote: Counting objects:  14% (3/21)[Kremote: Counting objects:  19% (4/21)[Kremote: Counting objects:  23% (5/21)[Kremote: Counting objects:  28% (6/21)[Kremote: Counting objects:  33% (7/21)[Kremote: Counting objects:  38% (8/21)[Kremote: Counting objects:  42% (9/21)[Kremote: Counting objects:  47% (10/21)[Kremote: Counting objects:  52% (11/21)[Kremote: Counting objects:  57% (12/21)[Kremote: Counting objects:  61% (13/21)[Kremote: Counting objects:  66% (14/21)[Kremote: Counting objects:  71% (15/21)[Kremote: Counting objects:  76% (16/21)[Kremote: Counting objects:  80% (17/21)[Kremote: Counting objects:  85% (18/21)[Kremote: Counting objects:  90% (19/21)[Kremote: Counting objects:  95% (20/21)[Kremote: Counting objects: 100% (21/21)[Kremote: Counting objects: 100% (21/21), done.[K
remote: 

In [None]:
!cp ML_COURSE/data/lesson\ 1/titanic/train.csv ./train.csv
!cp ML_COURSE/data/lesson\ 1/titanic/test.csv ./test.csv

## Предобработка тренировочных данных

Предобработка данных - то, на что мы сейчас сделаем фокус. Посмотрев на данные, мы можем сформулировать гипотезы о том, как нам лучше подойти к нашей задаче, а также мы можем значительно улучшить качество итогового результата. Большое количество пробелов, выбросы (аномально высокие или низкие значения), несбалансированность - это то, что всегда ухудшает итоговый результат. Или даже делает невозможным использовать машинное обучение.

Мы импортируем библиотеки для работы с таблицами. Pandas - наш лучший "друг" для предобработки.

In [None]:
import numpy as np
import pandas as pd

Посмотрим на наши данные. Обратим внимание на то, какие у нас здесь есть фичи. Обратим также внимание на то, где у нас данные числовые, а где - нет.

Считайте данные из файла train.csv в переменную df и выведите первые 5 строк датафрейма.

In [None]:
df = # Ваш код здесь

Работая с данными, мы можем сразу разделить их на то, на чём мы будем учить нашу модель и то, к чему мы будем стремиться. Разделим датасет на признаки и целевую переменную.

y - целевая переменная  
data - все остальные признаки

In [None]:
y = # Ваш код здесь
data = # Ваш код здесь

Проверим, что у нас всё верно. Посмотрим на переменную 'data', в которую мы записали все признаки.

Мы можем посмотреть как и начало...

In [None]:
data.head(10)

... так и конец.

In [None]:
data.tail(5)

Работая с данными, мы должны работать не только с Pandas, но и хорошо понимать особенности самих данных. Например, будут ли влиять ID, имя, номер билета и номер каюты на то, выживет ли пасажир? При этом нужно помнить, что пол и класс обслуживания у нас есть в отдельных признаках. Все ли признаки дадут нам уникальную и полезную информацию?

Удалите неинформативные (по вашему мнению) признаки.

In [None]:
data = # Ваш код здесь
data.head(10)

Давайте посмотрим информацию о данных. Особое внимание надо обратить на типы данных и на то, нет ли в какой-то фиче большого количества пропусков?

In [None]:
# проверьте, есть ли в данных пропуски
# Ваш код здесь

Мы видим, что в поле "возраст" у нас очень много пропусков. Нам необходимо их заполнить. Давайте попробуем, например, заполнить все пропуски в возрасте значением ноль. 

Заполните пропуски в колонке Age:
используйте метод fillna(0)

Дополнительное задание: Так же можно попробовать заполнить средним возростом по столбцу или медианой.

In [None]:
# Ваш код здесь

С 'Embarked' несколько сложнее. Это не числовой признак, поэтому просто нулями заполнить всё нельзя. Посмотрим соотношения классов в фиче.

In [None]:
data['Embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [None]:
data['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

Больше всего значений у нас в классе 'S'. Самым простым решением у нас будет заполнить все пропуски этим значением.

In [None]:
data['Embarked'] = data['Embarked'].fillna('S')

Проверим то, что у нас получилось.

In [None]:
data.head(10)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,3,"Moran, Mr. James",male,29.699118,0,0,330877,8.4583,,Q
6,7,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Пол у нас сейчас записан словами, но, работая с данными, желательно как можно больше значений кодировать. Пол мы, например, можем условно принять за 0 и 1.

In [None]:
sex_dict = {
    'female': 0,
    'male': 1
}

data['Sex'] = list(map(lambda x: sex_dict[x], data['Sex']))

# for i in range(len(data)):
#   data['Sex'][i] = sex_dict[data['Sex'][i]]

Посмотрим на результат.

In [None]:
data.head(10)

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,3,1,22.0,1,0,7.25,S
1,1,0,38.0,1,0,71.2833,C
2,3,0,26.0,0,0,7.925,S
3,1,0,35.0,1,0,53.1,S
4,3,1,35.0,0,0,8.05,S
5,3,1,29.699118,0,0,8.4583,Q
6,1,1,54.0,0,0,51.8625,S
7,3,1,2.0,3,1,21.075,S
8,3,0,27.0,0,2,11.1333,S
9,2,0,14.0,1,0,30.0708,C


Есть более сложный (но только по иснтрументам!) метод закодировать значения фичей. Его опробуем на классах обслуживания.

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit(data['Embarked'])
data['Embarked'] = le.transform(data['Embarked'])

data.head(10)

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,3,1,22.0,1,0,7.25,2
1,1,0,38.0,1,0,71.2833,0
2,3,0,26.0,0,0,7.925,2
3,1,0,35.0,1,0,53.1,2
4,3,1,35.0,0,0,8.05,2
5,3,1,29.699118,0,0,8.4583,1
6,1,1,54.0,0,0,51.8625,2
7,3,1,2.0,3,1,21.075,2
8,3,0,27.0,0,2,11.1333,2
9,2,0,14.0,1,0,30.0708,0


С корреляцией подробнее мы познакомимся несколько позже. Если кратко, то благодаря этой функции можно понять, насколько взаимосвязаны два признака между собой. 

In [None]:
data.corr()


Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
Pclass,1.0,0.1319,-0.331339,0.083081,0.018443,-0.5495,0.162098
Sex,0.1319,1.0,0.084153,-0.114631,-0.245489,-0.182333,0.108262
Age,-0.331339,0.084153,1.0,-0.232625,-0.179191,0.091566,-0.026749
SibSp,0.083081,-0.114631,-0.232625,1.0,0.414838,0.159651,0.06823
Parch,0.018443,-0.245489,-0.179191,0.414838,1.0,0.216225,0.039798
Fare,-0.5495,-0.182333,0.091566,0.159651,0.216225,1.0,-0.224719
Embarked,0.162098,0.108262,-0.026749,0.06823,0.039798,-0.224719,1.0


## Обучаем модель машинного обучения

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split

knn = KNeighborsClassifier(n_neighbors=5)

cross_val_scores = cross_val_score(knn, data, y, cv=5, scoring='accuracy')
print(cross_val_scores)
print(np.mean(cross_val_scores))

[0.65363128 0.65168539 0.70786517 0.74157303 0.71910112]
0.694771200803465


In [None]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

cross_val_scores = cross_val_score(lr, data, y, cv=5, scoring='accuracy')
print(cross_val_scores)
print(np.mean(cross_val_scores))

[0.78212291 0.78089888 0.78089888 0.76966292 0.82022472]
0.786761659657272


In [None]:
lr.fit(data,y)
knn.fit(data,y)

KNeighborsClassifier()

## Предобработка тестовых данных

Тестовые данные должны быть предобработаны строго так же, как тренировочные.

Обратите внимание, что в тестовых данных нет колонки Survived — эту колонку нам и надо предсказать для конкурса.

In [None]:
data_test = pd.read_csv('test.csv')
data_test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [None]:
# сохраним колонку PassengerId в отдельной переменной.
# это понадобится нам для формирования файла с ответами для Kaggle
passenger_id = data_test['PassengerId']

Выкинем те же столбцы, что и из обучающих данных.

In [None]:
# Ваш код здесь.

Аналогично, заполним пропуски для тестовых данных.

In [None]:
# Ваш код здесь.

In [None]:
data_test['Sex'] = list(map(lambda x: sex_dict[x], data_test['Sex']))
data_test['Embarked'] = le.transform(data_test['Embarked'])

In [None]:
data_test.head()

## Получаем предсказания моделей на тестовых данных

In [None]:
y_pred_lr = lr.predict(data_test)
y_pred_knn = knn.predict(data_test)

# Итоговый результат

In [None]:
y_pred_knn = pd.DataFrame(y_pred_knn, columns=['Survived'])
y_pred_knn['PassengerId'] = passenger_id
y_pred_knn = y_pred_knn[['PassengerId', 'Survived']]
y_pred_knn.to_csv('submission_knn.csv', index=None)

y_pred_knn.head()

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,1
4,896,0


In [None]:
# y_pred_lr = pd.DataFrame(y_pred_lr, columns=['Survived'])
# y_pred_lr['PassengerId'] = passenger_id
# y_pred_lr = y_pred_lr[['PassengerId', 'Survived']]
# y_pred_lr.to_csv('submission_lr.csv', index=None)

# y_pred_lr.head()

Unnamed: 0,PassengerId,Survived
0,892,0
1,893,0
2,894,0
3,895,0
4,896,1


## У вас появился файл submission_knn.csv! Его и надо загрузить в Kaggle!