# Inżyniera cech - data split

In [2]:
import pandas as pd
import arff
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

## 1. Wczytanie danych

In [None]:
df_redukcja = pd.read_csv("nowa_tabelka.csv")
display(df_redukcja.head(10))

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,Cabin,CabinReduced
0,1.0,1,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO",B5,B
1,1.0,1,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON",C22 C26,C
2,1.0,0,"Allison, Miss. Helen Loraine",female,2.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C22 C26,C
3,1.0,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1.0,2.0,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON",C22 C26,C
4,1.0,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C22 C26,C
5,1.0,1,"Anderson, Mr. Harry",male,48.0,0.0,0.0,19952,26.55,E12,S,3,,"New York, NY",E12,E
6,1.0,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1.0,0.0,13502,77.9583,D7,S,10,,"Hudson, NY",D7,D
7,1.0,0,"Andrews, Mr. Thomas Jr",male,39.0,0.0,0.0,112050,0.0,A36,S,,,"Belfast, NI",A36,A
8,1.0,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2.0,0.0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY",C101,C
9,1.0,0,"Artagaveytia, Mr. Ramon",male,71.0,0.0,0.0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay",,N


In [None]:
with open("Titanic.arff", "r") as file:
    data = arff.load(file)

df = pd.DataFrame(data['data'], columns=[attr[0] for attr in data['attributes']])
display(df.head(10))

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,1,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,1,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1.0,0,"Allison, Miss. Helen Loraine",female,2.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1.0,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1.0,2.0,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1.0,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
5,1.0,1,"Anderson, Mr. Harry",male,48.0,0.0,0.0,19952,26.55,E12,S,3,,"New York, NY"
6,1.0,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1.0,0.0,13502,77.9583,D7,S,10,,"Hudson, NY"
7,1.0,0,"Andrews, Mr. Thomas Jr",male,39.0,0.0,0.0,112050,0.0,A36,S,,,"Belfast, NI"
8,1.0,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2.0,0.0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
9,1.0,0,"Artagaveytia, Mr. Ramon",male,71.0,0.0,0.0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"


## 2. train_test_split – obserwacje

Funkcja `train_test_split` pozwala podzielić dane na część do nauki (treningową) i część do sprawdzania (testową).

Parametr **test_size** ustala, jaka część danych trafi do testu – np. 0.2 to 20%.

Ustawiając **random_state**, sprawiamy, że podział danych będzie zawsze taki sam przy każdym uruchomieniu.


## 3. Utworzenie col_name

In [None]:
col_name = ['cabin', 'CabinReduced', 'sex']

## 4. Podział danych

In [None]:
x = df_redukcja[col_name]
y = df_redukcja['survived']

x_train, x_test, y_train, y_test = train_test_split( x, y, test_size=0.2, random_state=0)

print("X_train:", x_train.shape)
print("X_test:", x_test.shape)
print("y_train:", y_train.shape)
print("y_test:", y_test.shape)

X_train: (1047, 3)
X_test: (262, 3)
y_train: (1047,)
y_test: (262,)


- `x_train` zawiera 1047 wierszy i 3 kolumny – są to dane treningowe, czyli te, na których Twój model będzie się uczył.
- `x_test` zawiera 262 wiersze i również 3 kolumny – to dane testowe, na których model będzie sprawdzany.
- `y_train` to etykiety (czyli kolumna 'survived') odpowiadające zbiorowi treningowemu – 1047 wartości.
- `y_test` to etykiety dla zbioru testowego – 262 wartości.


##  5. Sprawdzenie rozkładu etykiet

In [None]:
for col in col_name:
    unique_test = [x for x in x_test[col].unique() if x not in x_train[col].unique()]
    print(f"Zmienna: {col}")
    print(f"Liczba unikalnych wartości w teście, których nie ma w treningu: {len(unique_test)}\n")


Zmienna: cabin
Liczba unikalnych wartości w teście, których nie ma w treningu: 24

Zmienna: CabinReduced
Liczba unikalnych wartości w teście, których nie ma w treningu: 0

Zmienna: sex
Liczba unikalnych wartości w teście, których nie ma w treningu: 0



Dla zmiennej `cabin` w zbiorze testowym występuje 24 unikalne etykiety, których nie ma w treningowym, co może negatywnie wpłynąć na predykcję – model ich nie zna. Po redukcji `CabinReduced` ten problem znika – wszystkie etykiety z testu występują w treningu. Zmienna `sex` ma niski poziom kardynalności i również zachowuje spójność między zbiorami. Redukcja kardynalności poprawia jakość danych i zwiększa szanse na lepsze wyniki modelu.

## 6/7. Kodowanie i mapowanie zmiennych 

In [None]:
for column in col_name:

    code_mapping = {}
    for idx, unique_value in enumerate(df_redukcja[column].unique()):
        code_mapping[unique_value] = idx

    x_train[column + '_map'] = x_train[column].map(code_mapping)
    x_test[column + '_map'] = x_test[column].map(code_mapping)

display(x_train.head(10))

Unnamed: 0,cabin,CabinReduced,sex,cabin_map,CabinReduced_map,sex_map
1118,,N,male,6,5,1
44,E40,E,female,28,2,0
1072,,N,male,6,5,1
1130,,N,female,6,5,0
574,,N,male,6,5,1
1217,F G73,F,male,181,7,1
500,,N,male,6,5,1
958,,N,female,6,5,0
269,A19,A,male,145,4,1
322,C32,C,female,164,1,0


In [None]:
display(x_test.head(10))

Unnamed: 0,cabin,CabinReduced,sex,cabin_map,CabinReduced_map,sex_map
1139,,N,male,6,5,1
533,,N,female,6,5,0
459,,N,male,6,5,1
1150,,N,male,6,5,1
393,,N,male,6,5,1
1189,G6,G,female,185,8,0
5,E12,E,male,2,2,1
231,C104,C,male,130,1,1
330,,N,male,6,5,1
887,,N,male,6,5,1


##  8. Sprawdzenie braków

In [16]:
print("Brakujące wartości w zbiorze treningowym:")
display(x_train.isna().sum())

print("\nBrakujące wartości w zbiorze testowym:")
display(x_test.isna().sum())

Brakujące wartości w zbiorze treningowym:


cabin               803
CabinReduced          0
sex                   0
cabin_map             0
CabinReduced_map      0
sex_map               0
dtype: int64


Brakujące wartości w zbiorze testowym:


cabin               211
CabinReduced          0
sex                   0
cabin_map             0
CabinReduced_map      0
sex_map               0
dtype: int64

W zbiorze treningowym występuje 803 brakujących wartości w kolumnie `cabin`, natomiast w zbiorze testowym – 211. Pozostałe kolumny, takie jak `CabinReduced`, `sex` oraz ich wersje zmapowane, nie zawierają braków. Mapowanie zostało przeprowadzone prawidłowo – brakujące wartości w kolumnie cabin zostały zastąpione wartością 0 w kolumnie `cabin_map`. To pozwala zachować spójność danych i uniknąć błędów podczas dalszego modelowania.

## 9. Zastąpienie brakujacych wartości liczb 0

In [17]:
x_train['cabin'] = x_train['cabin'].fillna(0)
x_test['cabin'] = x_test['cabin'].fillna(0)

Zastąpienie brakujących wartości liczbą 0 jest prostym i szybkim rozwiązaniem, które umożliwia dalsze przetwarzanie danych bez błędów. Jednak nie zawsze jest to najlepsze podejście, ponieważ wartość 0 może nie mieć znaczenia w kontekście rzeczywistym (np. brak przydzielonej kabiny). W bardziej zaawansowanej analizie można zamiast tego rozważyć stworzenie nowej kategorii np. "Unknown".


## 10. Porównanie liczby unikalnych wartości

In [18]:
for col in col_name:
    print(f"\nKolumna: {col}")
    unique_train = len(x_train[col].unique())
    unique_test = len(x_test[col].unique())
    unique_map_train = len(x_train[f"{col}_map"].unique())
    unique_map_test = len(x_test[f"{col}_map"].unique())

    
    print(f"Unikalne etykiety (train): {unique_train}")
    print(f"Unikalne etykiety (test): {unique_test}")
    print(f"Po mapowaniu (train): {unique_map_train}")
    print(f"Po mapowaniu (test): {unique_map_test}")


Kolumna: cabin
Unikalne etykiety (train): 164
Unikalne etykiety (test): 49
Po mapowaniu (train): 164
Po mapowaniu (test): 49

Kolumna: CabinReduced
Unikalne etykiety (train): 9
Unikalne etykiety (test): 8
Po mapowaniu (train): 9
Po mapowaniu (test): 8

Kolumna: sex
Unikalne etykiety (train): 2
Unikalne etykiety (test): 2
Po mapowaniu (train): 2
Po mapowaniu (test): 2


Różnica między liczbą etykiet przed i po redukcji jest najbardziej zauważalna w kolumnie cabin. W zbiorze treningowym było aż 164 unikalnych wartości, a po redukcji (CabinReduced) liczba ta spadła do 9. W zbiorze testowym z kolei liczba etykiet zmniejszyła się z 49 do 8. Mapowanie zmiennych nie zmienia liczby etykiet – jedynie przypisuje im wartości liczbowe, co ułatwia ich przetwarzanie przez model.
Cały ten proces – od redukcji etykiet, przez kodowanie, aż po uzupełnienie braków – ma wpływ na jakość modelu. Zmniejszenie liczby kategorii może pomóc w uniknięciu przeuczenia i przyspieszyć trenowanie, ale może też spowodować utratę pewnych szczegółów zawartych w oryginalnych danych. 