In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [None]:
titanic_data = pd.read_csv('https://raw.githubusercontent.com/zuzannabrauer/machineLearning/master/lab6/titanic_data_cabin_reduced.csv', index_col = 0)
titanic_data

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,cabinReduced
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO",B
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON",C
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON",C
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,,


<h3>Opis funkcji train_test_split</h3>
Funkcja train_test_split z biblioteki scikit-learn jest funkcją służącą do podziału danych na zestaw treningowy i testowy. Pozwala to później na ocenę wydajności modelu. Funckja ta przyjmuje jako wymagany argument sekwencję cech, które chcemy podzelić np. odpowiednie kolumny z DataFrame oraz wiele innych dodatkowych argumentów, które są opcjami:<br>
* test_size - określa rozmiar zestawu testowego jako procent całości danych lub jako liczbę próbek<br>
* train_size - określa rozmiar zestawu treningowego, jeśli train_size nie jest określony, jest to dopełnienie test_size<br>
* random_state - ustala ziarno losowości, można dzięki temu reprodukować podziały<br>
* shuffle - domyślnie jest ustawione na True i powoduje losowe przemieszanie danych przed podziałem <br>
* stratify - pozwala zachować proporcje etykiet w zestawach treningowym i testowym

In [None]:
col_name = ['cabin', 'cabinReduced', 'sex']
x_train, x_test, y_train, y_test = train_test_split(titanic_data[col_name], titanic_data['survived'], test_size = 0.2, random_state = 0)

print("Wymiary zbioru x_train:", x_train.shape)
print("Wymiary zbioru x_test:", x_test.shape)
print("Wymiary zbioru y_train:", y_train.shape)
print("Wymiary zbioru y_test:", y_test.shape)

Wymiary zbioru x_train: (1047, 3)
Wymiary zbioru x_test: (262, 3)
Wymiary zbioru y_train: (1047,)
Wymiary zbioru y_test: (262,)


<h3>Komentarz wyników podziału</h3>
Wygląda na to, że funkcja train_test_split zadziałała w sposób prawidłowy. Zbiór testowy stanowi 20% całości danych, a treningowy 80%. Zarówno treningowy, jak i testowy zestaw danych są odpowiednio zrównoważone pod względem liczby próbek i cech oraz żadne z danych nie zostały pominięte, ponieważ (1047 + 262 = 1309).

In [None]:
unique_cabin = [x for x in x_test.cabin.unique() if x not in x_train.cabin.unique()]
print('Ilość unikalnych etykiet dla cabin w zbiorze testowym, których nie ma w zbiorze treningowym:', len(unique_cabin))

unique_cabinReduced = [x for x in x_test.cabinReduced.unique() if x not in x_train.cabinReduced.unique()]
print('Ilość unikalnych etykiet dla cabinReduced w zbiorze testowym, których nie ma w zbiorze treningowym:', len(unique_cabinReduced))

unique_sex = [x for x in x_test.sex.unique() if x not in x_train.sex.unique()]
print('Ilość unikalnych etykiet dla sex w zbiorze testowym, których nie ma w zbiorze treningowym:', len(unique_sex))

Ilość unikalnych etykiet dla cabin w zbiorze testowym, których nie ma w zbiorze treningowym: 24
Ilość unikalnych etykiet dla cabinReduced w zbiorze testowym, których nie ma w zbiorze treningowym: 1
Ilość unikalnych etykiet dla sex w zbiorze testowym, których nie ma w zbiorze treningowym: 0


<h3>Komentarz do rozkładu etykiet</h3>
Widzimy, że rozkład etykiet jest w równomierny dla zredukowanej kabiny i płci, lecz nie do konca dla kabiny.

In [None]:
maps = {
    'cabin': {},
    'cabinReduced': {},
    'sex': {}
}

for column in col_name:
    unique_values = pd.concat([x_train[column], x_test[column]]).dropna().unique()
    maps[column] = {value: i+1 for i, value in enumerate(unique_values)}

print('cabin map:', maps['cabin'])
print('cabinReduced map:', maps['cabinReduced'])
print('sex map:', maps['sex'])

cabin map: {'E40': 1, 'F G73': 2, 'A19': 3, 'C32': 4, 'D': 5, 'B79': 6, 'C62 C64': 7, 'E8': 8, 'D28': 9, 'C45': 10, 'C46': 11, 'B22': 12, 'B57 B59 B63 B66': 13, 'C23 C25 C27': 14, 'E44': 15, 'B45': 16, 'B39': 17, 'B58 B60': 18, 'F2': 19, 'C47': 20, 'B101': 21, 'D21': 22, 'A7': 23, 'E52': 24, 'F38': 25, 'E36': 26, 'C68': 27, 'E24': 28, 'C22 C26': 29, 'D38': 30, 'B50': 31, 'A24': 32, 'C111': 33, 'F': 34, 'C6': 35, 'C87': 36, 'C93': 37, 'D36': 38, 'C125': 39, 'B35': 40, 'T': 41, 'B73': 42, 'A26': 43, 'A18': 44, 'B96 B98': 45, 'G6': 46, 'C78': 47, 'C101': 48, 'D9': 49, 'D33': 50, 'C128': 51, 'E50': 52, 'B26': 53, 'B69': 54, 'E121': 55, 'C123': 56, 'B94': 57, 'A34': 58, 'C39': 59, 'D43': 60, 'E31': 61, 'B5': 62, 'D17': 63, 'F33': 64, 'D7': 65, 'A21': 66, 'D34': 67, 'A29': 68, 'D35': 69, 'A11': 70, 'B51 B53 B55': 71, 'D46': 72, 'E60': 73, 'C30': 74, 'D26': 75, 'E68': 76, 'A9': 77, 'B71': 78, 'D37': 79, 'C55 C57': 80, 'C89': 81, 'C124': 82, 'C126': 83, 'E49': 84, 'F E46': 85, 'E46': 86, 'D19'

In [None]:
x_train['cabin'] = x_train['cabin'].map(maps['cabin'])
x_train['cabinReduced'] = x_train['cabinReduced'].map(maps['cabinReduced'])
x_train['sex'] = x_train['sex'].map(maps['sex'])

x_test['cabin'] = x_test['cabin'].map(maps['cabin'])
x_test['cabinReduced'] = x_test['cabinReduced'].map(maps['cabinReduced'])
x_test['sex'] = x_test['sex'].map(maps['sex'])

In [None]:
print('Liczba brakujących wartości po zmapowaniu dla cabin w zbiorze treningowym: ', x_train['cabin'].isnull().sum())
print('Liczba brakujących wartości po zmapowaniu dla cabinReduced w zbiorze treningowym: ', x_train['cabinReduced'].isnull().sum())
print('Liczba brakujących wartości po zmapowaniu dla sex w zbiorze treningowym: ', x_train['sex'].isnull().sum())
print('Liczba brakujących wartości po zmapowaniu dla cabin w zbiorze testowym: ', x_test['cabin'].isnull().sum())
print('Liczba brakujących wartości po zmapowaniu dla cabinReduced w zbiorze testowym: ', x_test['cabinReduced'].isnull().sum())
print('Liczba brakujących wartości po zmapowaniu dla sex w zbiorze testowym: ', x_test['sex'].isnull().sum())

Liczba brakujących wartości po zmapowaniu dla cabin w zbiorze treningowym:  803
Liczba brakujących wartości po zmapowaniu dla cabinReduced w zbiorze treningowym:  803
Liczba brakujących wartości po zmapowaniu dla sex w zbiorze treningowym:  0
Liczba brakujących wartości po zmapowaniu dla cabin w zbiorze testowym:  211
Liczba brakujących wartości po zmapowaniu dla cabinReduced w zbiorze testowym:  211
Liczba brakujących wartości po zmapowaniu dla sex w zbiorze testowym:  0


<h3>Komentarz do brakujących wartości po mapowaniu</h3>
Ilość wartości NaN w zbiorach jest identyczna jak przed mapowaniem, co pokazuje, że mapowanie się udało i w słownikach znajdują się wszytskie uniklane etykiety. Nie zmienia to jednak faktu, że wartości brakujących jest naprawdę dużo w obu zbiorach i należałoby je czymś zastąpić.

In [None]:
x_train['cabin'].fillna(0, inplace=True)
x_train['cabinReduced'].fillna(0, inplace=True)
x_test['cabin'].fillna(0, inplace=True)
x_test['cabinReduced'].fillna(0, inplace=True)

<h3>Komentarz do zastępowania wartości NaN</h3>
Zastępowanie wartością 0, nie było zbyt łatwe, ponieważ wymusiło zmianę numeracji istniejących etykiet od 1 a nie od 0, żeby zastąpienie nie sugerowało,że na przykład pasażerowie mieli kabinę oznaczoną jako E40(0). Nie było to jedyne wyjście pozbycia się wartości NaN, można to było zrobić poprzez ich zastąpienie najczęściej występującą wartością, mediana lub średnią. Jednakże 0 wydaje się tutaj najabradziej rozsądną wartością, ponieważ 0 będzie nam wskazywać na brak kabiny i może być to pomocne przy predykcji.

In [None]:
unique_cabin = [x for x in x_test.cabin.unique() if x not in x_train.cabin.unique()]
print('Ilość unikalnych etykiet dla cabin w zbiorze testowym, których nie ma w zbiorze treningowym:', len(unique_cabin))

unique_cabinReduced = [x for x in x_test.cabinReduced.unique() if x not in x_train.cabinReduced.unique()]
print('Ilość unikalnych etykiet dla cabinReduced w zbiorze testowym, których nie ma w zbiorze treningowym:', len(unique_cabinReduced))

unique_sex = [x for x in x_test.sex.unique() if x not in x_train.sex.unique()]
print('Ilość unikalnych etykiet dla sex w zbiorze testowym, których nie ma w zbiorze treningowym:', len(unique_sex))

Ilość unikalnych etykiet dla cabin w zbiorze testowym, których nie ma w zbiorze treningowym: 23
Ilość unikalnych etykiet dla cabinReduced w zbiorze testowym, których nie ma w zbiorze treningowym: 0
Ilość unikalnych etykiet dla sex w zbiorze testowym, których nie ma w zbiorze treningowym: 0


<h3>Komentarz do rozkładu etykiet po mapowaniu</h3>
 Różnica pomiędzy liczbą etykiet przed i po redukcji oraz mapowaniu, jest nieduża. Możemy zauwazyć drobną poprawę, zarówno dla cechy cabin i cabinReduced liczba etykiet zmniejszyła się o 1. Podsumowując, cały proces, który był do tej pory wykonany z pewnością nie będzie miał negatywnego wpływu na końcowy wynik predykcji i jakość modelu. Wręcz przeciwnie, dzięki zastąpieniu wartości brakujących 0 spodziewam sie dokładniejszych wyników (może udać się znaleźć związek pomiędzy brakiem kabiny a śmiercią pasażera ?)