In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv("titanic2.csv")
df.head(10)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,CabinReduced
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO",B
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON",C
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON",C
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C
5,1,1,"Anderson, Mr. Harry",male,48.0,0,0,19952,26.55,E12,S,3,,"New York, NY",E
6,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S,10,,"Hudson, NY",D
7,1,0,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.0,A36,S,,,"Belfast, NI",A
8,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2,0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY",C
9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay",n


In [3]:
col_name = ['cabin', 'CabinReduced', 'sex']
df[col_name].head(10)

Unnamed: 0,cabin,CabinReduced,sex
0,B5,B,female
1,C22 C26,C,male
2,C22 C26,C,female
3,C22 C26,C,male
4,C22 C26,C,female
5,E12,E,male
6,D7,D,female
7,A36,A,male
8,C101,C,female
9,,n,male


In [4]:
x = df[col_name]     #zmienna niezależna
y = df['survived']   #zmienna zależna

Za pomocą train_test_split losowo dzielimy dane na zbiory testowe i treningowe. Określamy w jakim stosunku (procentowym) dzielimy te dane na ww. zbiory (test_size). Możemy również określić ziarno (random_state).

In [5]:
x_train1, x_test1, y_train1, y_test1 = train_test_split(
    x, y, test_size=0.3, random_state=0
)

print("X_train1:", x_train1.shape)
print("X_test1: ", x_test1.shape)
print("y_train1:", y_train1.shape)
print("y_test1: ", y_test1.shape)

X_train1: (916, 3)
X_test1:  (393, 3)
y_train1: (916,)
y_test1:  (393,)


Dane zostały podzielone w stosunku: 70% dla danych treningowych (czyli około 900 wierszy) oraz 30% dla danych testowych (czyli około 300 wierszy). Każdy wiersz ma 3 cechy (według zmiennej col_name - sex, cabin, CabinReduced)

In [6]:
x_train2, x_test2, y_train2, y_test2 = train_test_split(
    x, y, test_size=0.2, random_state=0
)
print("X_train2:", x_train2.shape)
print("X_test2: ", x_test2.shape)
print("y_train2:", y_train2.shape)
print("y_test2: ", y_test2.shape)

X_train2: (1047, 3)
X_test2:  (262, 3)
y_train2: (1047,)
y_test2:  (262,)


Również pomyślny podział zbioru na zbiór treningowy i testowy, tym razem odpowiednio w stosunku 80% do 20% (czyli dla zbioru treningowego około 1000 wierszy, dla testowego około 200). Random_state w obu przypadkach zapewnił powtarzalność wyników.

In [7]:
for col in col_name:
    unique_test = [x for x in x_test1[col].unique() if x not in x_train1[col].unique()]
    print(f"\nZmienna:\n{col}")
    print(f"Liczba unikalnych etykiet w teście, których nie ma w treningu etykiet:\n{len(unique_test)}")


Zmienna:
cabin
Liczba unikalnych etykiet w teście, których nie ma w treningu etykiet:
37

Zmienna:
CabinReduced
Liczba unikalnych etykiet w teście, których nie ma w treningu etykiet:
0

Zmienna:
sex
Liczba unikalnych etykiet w teście, których nie ma w treningu etykiet:
0


Widzimy, że aż 37 etykiet z cabin nie pojawia się w zbiorze treningowym. Powodem tego jest wcześniej omawiana przez nas wysoka kardynalność tej zmiennej. Takie różnice mogą negatywnie wpływać na tworzenie modelu, dlatego należy redukować moc kardynalności zmiennych, które chcemy używać do trenowania modelu. CabinReduced i sex nie napotykają tego problemu - ich etykiet jest po równo w obu zbiorach.

In [8]:
mapping = {}

for col in col_name:
    print(f"\nSłownik mapujący dla zmiennej: {col}")
    dict = {}
    for i, val in enumerate(x_train1[col].unique()):
        dict[val] = i
        print(f"'{val}' : {i},")
    
    mapping[col] = dict  #do uzycia potem


Słownik mapujący dla zmiennej: cabin
'nan' : 0,
'E36' : 1,
'C68' : 2,
'E24' : 3,
'C22 C26' : 4,
'D38' : 5,
'B50' : 6,
'A24' : 7,
'C111' : 8,
'F' : 9,
'C6' : 10,
'C87' : 11,
'E8' : 12,
'B45' : 13,
'C93' : 14,
'D28' : 15,
'D36' : 16,
'C125' : 17,
'B35' : 18,
'T' : 19,
'B73' : 20,
'B57 B59 B63 B66' : 21,
'A26' : 22,
'A18' : 23,
'B96 B98' : 24,
'G6' : 25,
'C78' : 26,
'C101' : 27,
'D9' : 28,
'D33' : 29,
'C128' : 30,
'E50' : 31,
'B26' : 32,
'B69' : 33,
'E121' : 34,
'C123' : 35,
'B94' : 36,
'A34' : 37,
'D' : 38,
'C39' : 39,
'D43' : 40,
'E31' : 41,
'B5' : 42,
'D17' : 43,
'F33' : 44,
'E44' : 45,
'D7' : 46,
'A21' : 47,
'D34' : 48,
'A29' : 49,
'D35' : 50,
'A11' : 51,
'B51 B53 B55' : 52,
'D46' : 53,
'E60' : 54,
'C30' : 55,
'D26' : 56,
'E68' : 57,
'A9' : 58,
'B71' : 59,
'D37' : 60,
'F2' : 61,
'C55 C57' : 62,
'C89' : 63,
'C124' : 64,
'C23 C25 C27' : 65,
'C126' : 66,
'E49' : 67,
'F E46' : 68,
'E46' : 69,
'D19' : 70,
'B58 B60' : 71,
'C82' : 72,
'B52 B54 B56' : 73,
'C92' : 74,
'E45' : 75,
'F G73' : 76

In [9]:
for col in col_name:
    print(f"\nMapowanie danych dla zmiennej: {col}")
    dict = mapping[col]

    x_train1[col + '_map'] = x_train1[col].map(dict)
    x_test1[col + '_map'] = x_test1[col].map(dict)
    
    print(x_train1[[col + '_map', col]].head(15))



Mapowanie danych dla zmiennej: cabin
      cabin_map    cabin
501           0      NaN
588           0      NaN
402           0      NaN
1193          0      NaN
686           0      NaN
971           0      NaN
117           1      E36
540           0      NaN
294           2      C68
261           3      E24
587           0      NaN
489           0      NaN
2             4  C22 C26
405           0      NaN
1284          0      NaN

Mapowanie danych dla zmiennej: CabinReduced
      CabinReduced_map CabinReduced
501                  0            n
588                  0            n
402                  0            n
1193                 0            n
686                  0            n
971                  0            n
117                  1            E
540                  0            n
294                  2            C
261                  1            E
587                  0            n
489                  0            n
2                    2            C
405          

In [10]:
print("Braki w x_train1:")
print(x_train1.isnull().sum())
print("\nBraki w x_test1:")
print(x_test1.isnull().sum())

Braki w x_train1:
cabin               702
CabinReduced          0
sex                   0
cabin_map             0
CabinReduced_map      0
sex_map               0
dtype: int64

Braki w x_test1:
cabin               312
CabinReduced          0
sex                   0
cabin_map            42
CabinReduced_map      0
sex_map               0
dtype: int64


Kolumna 'cabin_map' w treningu nie ma braków, ponieważ słownik był tworzony na tych danych. Natomiast w teście pojawiło się 42 wartości NaN, ponieważ niektóre kabiny nie występowały w zbiorze treningowym i nie zostały zmapowane. Kolumny 'CabinReduced', 'sex' i ich wersje zmapowane nie mają braków, ponieważ w wcześniejszym zadaniu widzieliśmy, iż etykiety dla tych zmiennych rozłożyły się równomiernie dla obydwu zbiorów.

In [11]:
x_train1.fillna(0, inplace=True)
x_test1.fillna(0, inplace=True)

Lepszym podejściem do zastąpienia brakujących danych byłoby stworzenie osobnej kategorii. Liczba '0' mogłaby być myląca i oznaczać np inną już konkretną kategorię.

In [12]:
for col in col_name:
    print(f"\nZmienna: {col}")
    print(f"Unikalne wartości (train): {len(x_train1[col].unique())}")
    print(f"Po mapowaniu (train): {len(x_train1[col + '_map'].unique())}")
    print(f"Unikalne wartości (test): {len(x_test1[col].unique())}")
    print(f"Po mapowaniu (test): {len(x_test1[col + '_map'].unique())}")


Zmienna: cabin
Unikalne wartości (train): 151
Po mapowaniu (train): 151
Unikalne wartości (test): 71
Po mapowaniu (test): 35

Zmienna: CabinReduced
Unikalne wartości (train): 9
Po mapowaniu (train): 9
Unikalne wartości (test): 8
Po mapowaniu (test): 8

Zmienna: sex
Unikalne wartości (train): 2
Po mapowaniu (train): 2
Unikalne wartości (test): 2
Po mapowaniu (test): 2


Zmienne 'cabin' mają 151 unikalnych wartości w train, przez co część z testu nie została zamapowana (tylko 35 z 71). Reszty nie było w treningu, więc nie zostały przypisane. Powoduje to ryzyko, że model nie poradzi sobie z nowymi etykietami.
Po redukcji jest ich tylko 9 w train i 8 w test, więc dane są dużo prostsze do analizy i lepsze dla modelu. Nieproblematyczne jest 'sex', ponieważ ma tylko 2 wartości.
Redukcja i mapowanie upraszcza dane i sprawia, że są bardziej uporządkowane, dzięki czemu model może lepiej działać i trafniej przewidywać.