### **Załadowanie bibliotek**

In [1]:
import numpy as np
import pandas as pd

### **Wczytanie przetworzonego zbioru danych Titanic**

In [2]:
titanic = pd.read_csv('titanic1904.csv')
titanic.head(10)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest,CabinReduced
0,1.0,1,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO",B
1,1.0,1,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON",C
2,1.0,0,"Allison, Miss. Helen Loraine",female,2.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C
3,1.0,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1.0,2.0,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON",C
4,1.0,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1.0,2.0,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON",C
5,1.0,1,"Anderson, Mr. Harry",male,48.0,0.0,0.0,19952,26.55,E12,S,3,,"New York, NY",E
6,1.0,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1.0,0.0,13502,77.9583,D7,S,10,,"Hudson, NY",D
7,1.0,0,"Andrews, Mr. Thomas Jr",male,39.0,0.0,0.0,112050,0.0,A36,S,,,"Belfast, NI",A
8,1.0,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2.0,0.0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY",C
9,1.0,0,"Artagaveytia, Mr. Ramon",male,71.0,0.0,0.0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay",N


### **Funkcja `train_test_split` z biblioteki Scikit-learn**
Funkcja ta jest używana do podzielenia danych na zbiór treinngowy i testowy, co umożliwia ocenę modelu na danych, których wcześniej nie widział.

**Parametry funkcji:**
* X: Zmienne niezależne
* y: Zmienna zależna
* test_size: określa proporcję lub liczbę próbek w zbiorze testowym
* random_state: parametr kontrolujący losowość

In [3]:
from sklearn.model_selection import train_test_split

In [4]:
col_name = ['cabin', 'CabinReduced', 'sex']

In [5]:
X = titanic[col_name]
y = titanic['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [6]:
print("X_train:", X_train.shape)
print("X_test:", X_test.shape)
print("y_train:", y_train.shape)
print("y_test:", y_test.shape)

X_train: (1047, 3)
X_test: (262, 3)
y_train: (1047,)
y_test: (262,)


### **Rozkład etykiet poszczególnych cech**
Sprawdzenie, czy rozkład etykiet dla zmiennych w zbiorze treningowym i testowym jest równomierny.

In [7]:
for feature in col_name:
    unique_test = [x for x in X_test[feature].unique() if x not in X_train[feature].unique()]
    print(f"{feature} – liczba cech występujących tylko w zbiorze testowym: {len(unique_test)}")

cabin – liczba cech występujących tylko w zbiorze testowym: 24
CabinReduced – liczba cech występujących tylko w zbiorze testowym: 0
sex – liczba cech występujących tylko w zbiorze testowym: 0


In [8]:
for col in col_name:
    print(f"\n-----------\nZmienna: {col}")

    if col != 'cabin':
        train_counts = X_train[col].value_counts(normalize=True)
        test_counts = X_test[col].value_counts(normalize=True)

        print("\nProcentowy rozkład w zbiorze treningowym:")
        print((train_counts * 100).round(2).astype(str) + '%')

        print("\nProcentowy rozkład w zbiorze testowym:")
        print((test_counts * 100).round(2).astype(str) + '%')

    unique_test_only = [x for x in X_test[col].unique() if x not in X_train[col].unique()]
    print("\nEtykiety występujące tylko w zbiorze testowym:")

    if col == 'cabin':
        print(unique_test_only)
    else:
        print(unique_test_only)


-----------
Zmienna: cabin

Etykiety występujące tylko w zbiorze testowym:
[nan, 'E12', 'C104', 'A31', 'D11', 'D48', 'D10 D12', 'B38', 'D45', 'C50', 'C31', 'B82 B84', 'A32', 'C53', 'B10', 'C70', 'A23', 'C106', 'E58', 'B11', 'F E69', 'B80', 'E39 E41', 'D22']

-----------
Zmienna: CabinReduced

Procentowy rozkład w zbiorze treningowym:
CabinReduced
N    76.7%
C    7.45%
B    4.97%
E    3.44%
D    3.44%
A    1.81%
F    1.72%
G    0.38%
T     0.1%
Name: proportion, dtype: object

Procentowy rozkład w zbiorze testowym:
CabinReduced
N    80.53%
C     6.11%
B     4.96%
D     3.82%
E     1.91%
A     1.15%
F     1.15%
G     0.38%
Name: proportion, dtype: object

Etykiety występujące tylko w zbiorze testowym:
[]

-----------
Zmienna: sex

Procentowy rozkład w zbiorze treningowym:
sex
male      63.32%
female    36.68%
Name: proportion, dtype: object

Procentowy rozkład w zbiorze testowym:
sex
male      68.7%
female    31.3%
Name: proportion, dtype: object

Etykiety występujące tylko w zbiorze te

### **Kodowanie zmiennych kategorycznych do zmiennych liczbowych**

In [9]:
for col in col_name:

    unique_labels = pd.concat([X_train[col], X_test[col]])

    mapping_dict = {label: idx + 1 for idx, label in enumerate(unique_labels.dropna().unique())}

    X_train[col] = X_train[col].map(mapping_dict)
    X_test[col] = X_test[col].map(mapping_dict)

    X_train[col] = X_train[col].where(X_train[col].notna(), np.nan)
    X_test[col] = X_test[col].where(X_test[col].notna(), np.nan)

    print(f"Przykład mapowania zmiennej '{col}':", dict(list(mapping_dict.items())[:5]))


Przykład mapowania zmiennej 'cabin': {'E40': 1, 'F G73': 2, 'A19': 3, 'C32': 4, 'D': 5}
Przykład mapowania zmiennej 'CabinReduced': {'N': 1, 'E': 2, 'F': 3, 'A': 4, 'C': 5}
Przykład mapowania zmiennej 'sex': {'male': 1, 'female': 2}


In [10]:
X_train.head(10)

Unnamed: 0,cabin,CabinReduced,sex
1118,,1,1
44,1.0,2,2
1072,,1,1
1130,,1,2
574,,1,1
1217,2.0,3,1
500,,1,1
958,,1,2
269,3.0,4,1
322,4.0,5,2


### **Sprawdzenie liczby brakujących wartości w zmodyfikowanych zbiorach i zastąpienie ich zerem**

Zastąpienie zerem jest akceptowalne, jeśli wiemy, że brak wartości można potraktować jako kategorię "brak danych".

In [11]:

missing_train = X_train.isna().sum()
missing_test = X_test.isna().sum()

print("Brakujące wartości w zbiorze treningowym:")
print(missing_train)

print("\nBrakujące wartości w zbiorze testowym:")
print(missing_test)

X_train = X_train.fillna(0)
X_test = X_test.fillna(0)

print("\nPo zastąpieniu brakujących wartości zerem:")
print("Zbiór treningowy:")
print(X_train.head())

print("\nZbiór testowy:")
print(X_test.head())


Brakujące wartości w zbiorze treningowym:
cabin           803
CabinReduced      0
sex               0
dtype: int64

Brakujące wartości w zbiorze testowym:
cabin           211
CabinReduced      0
sex               0
dtype: int64

Po zastąpieniu brakujących wartości zerem:
Zbiór treningowy:
      cabin  CabinReduced  sex
1118    0.0             1    1
44      1.0             2    2
1072    0.0             1    1
1130    0.0             1    2
574     0.0             1    1

Zbiór testowy:
      cabin  CabinReduced  sex
1139    0.0             1    1
533     0.0             1    2
459     0.0             1    1
1150    0.0             1    1
393     0.0             1    1


### **Porównanie liczby unikalnych etykiet przed i po mapowaniu**
W tej części analizujemy, jak proces mapowania zmiennych kategorycznych na liczbowe wpłynął na liczbę unikalnych wartości w zbiorach treningowym i testowym.

In [12]:
unique_train_before = {col: len(X_train[col].unique()) for col in col_name}
unique_test_before = {col: len(X_test[col].unique()) for col in col_name}

unique_train_after = {col: len(X_train[col].unique()) for col in col_name}
unique_test_after = {col: len(X_test[col].unique()) for col in col_name}

print("Liczba unikalnych wartości przed redukcją i mapowaniem:")
print("Zbiór treningowy:", unique_train_before)
print("Zbiór testowy:", unique_test_before)

print("\nLiczba unikalnych wartości po redukcji i mapowaniu:")
print("Zbiór treningowy:", unique_train_after)
print("Zbiór testowy:", unique_test_after)

diff_train = {col: unique_train_before[col] - unique_train_after[col] for col in col_name}
diff_test = {col: unique_test_before[col] - unique_test_after[col] for col in col_name}

print("\nRóżnica w liczbie unikalnych wartości dla zbioru treningowego (przed i po mapowaniu):")
print(diff_train)

print("\nRóżnica w liczbie unikalnych wartości dla zbioru testowego (przed i po mapowaniu):")
print(diff_test)

Liczba unikalnych wartości przed redukcją i mapowaniem:
Zbiór treningowy: {'cabin': 164, 'CabinReduced': 9, 'sex': 2}
Zbiór testowy: {'cabin': 49, 'CabinReduced': 8, 'sex': 2}

Liczba unikalnych wartości po redukcji i mapowaniu:
Zbiór treningowy: {'cabin': 164, 'CabinReduced': 9, 'sex': 2}
Zbiór testowy: {'cabin': 49, 'CabinReduced': 8, 'sex': 2}

Różnica w liczbie unikalnych wartości dla zbioru treningowego (przed i po mapowaniu):
{'cabin': 0, 'CabinReduced': 0, 'sex': 0}

Różnica w liczbie unikalnych wartości dla zbioru testowego (przed i po mapowaniu):
{'cabin': 0, 'CabinReduced': 0, 'sex': 0}


### **Czy cały proces, który został do tej pory wykonany może mieć wpływ na końcowy wynik predykcji i jakość modelu?**
Tak, cały proces przygotowania danych może mieć istotny wpływ na końcowy wynik predykcji i jakość modelu. Sposób zakodowania zmiennych kategorycznych, usunięcie lub uzupełnienie brakujących danych, a także zgodność etykiet pomiędzy zbiorem treningowym i testowym wpływa na to, jak model uczy się i jakie wnioski potrafi wyciągnąć. Zakodowanie zmiennych kategorycznych do wartości liczbowych pozwala modelowi lepiej interpretować dane, jednak sposób tego kodowania (np. przypisanie kolejnych liczb naturalnych) może wprowadzać sztuczne relacje. Z kolei zastąpienie brakujących wartości zerami upraszcza przetwarzanie, ale może prowadzić do błędnych interpretacji, jeśli 0 nie niesie rzeczywistego znaczenia w kontekście zmiennej.