### Import

Alle wichtigen Imports die für dieses Notebook benötigt werden:

In [134]:
print("Versions of the imported modules:")
import pandas as pd
print('pandas:', pd.__version__)
import numpy as np
print('numpy:', np.__version__)
import seaborn as sns
print('seaborn:', sns.__version__)
import re
print('Regex:', re.__version__)
import requests
print('Request:', requests.__version__)


##############################################
from pathlib import Path
# print('pathlib:', Path.__version__)
import matplotlib.pyplot as plt
# print('matplotlib:', plt.__version__)


import os

Versions of the imported modules:
pandas: 2.2.1
numpy: 1.26.4
seaborn: 0.13.2
Regex: 2.2.1
Request: 2.31.0


### Load Dataset

In [135]:
data_path = Path.cwd()

# Pfad zur CSV-Datei das Später erstellt wird
file_path = data_path/'../csv/pre_processed_data/train_test.csv'
feature_engineering_df = pd.read_csv(file_path)
feature_engineering_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Dataset
0,1,0.0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Train
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Train
2,3,1.0,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Train


In [136]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Age          1046 non-null   float64
 5   SibSp        1309 non-null   int64  
 6   Parch        1309 non-null   int64  
 7   Ticket       1309 non-null   object 
 8   Fare         1308 non-null   float64
 9   Cabin        295 non-null    object 
 10  Embarked     1307 non-null   object 
 11  Dataset      1309 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB


### Feature: Geschlecht ableiten

Es wird versucht über den Namen der Pasagieren (mit Titel/Ansprache z.B Mr.) auf das Geschlecht der Passagiere Rückschlüsse zu ziehen. Grund hierfür ist dass aus rechereche sich ergeben hat das Frauen und Kinder vor den Männern gerettet wurden.

In [137]:
# Funktion, um Namen in ihre Bestandteile zu teilen
def split_name(name):
    parts = re.split(r'[,\. ]+', name)
    surname = parts[0]
    speech = parts[1]
    first_name = " ".join(parts[2:])
    return surname, speech, first_name

# Namen in Bestandteile aufteilen und zu DataFrame hinzufügen
feature_engineering_df[['Surname', 'Speech', 'First_Name']] = feature_engineering_df.apply(lambda x: split_name(x['Name']), axis=1, result_type='expand')

feature_engineering_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Dataset,Surname,Speech,First_Name
0,1,0.0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Train,Braund,Mr,Owen Harris
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Train,Cumings,Mrs,John Bradley (Florence Briggs Thayer)
2,3,1.0,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Train,Heikkinen,Miss,Laina
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,Train,Futrelle,Mrs,Jacques Heath (Lily May Peel)
4,5,0.0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S,Train,Allen,Mr,William Henry


In [138]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Age          1046 non-null   float64
 5   SibSp        1309 non-null   int64  
 6   Parch        1309 non-null   int64  
 7   Ticket       1309 non-null   object 
 8   Fare         1308 non-null   float64
 9   Cabin        295 non-null    object 
 10  Embarked     1307 non-null   object 
 11  Dataset      1309 non-null   object 
 12  Surname      1309 non-null   object 
 13  Speech       1309 non-null   object 
 14  First_Name   1309 non-null   object 
dtypes: float64(3), int64(4), object(8)
memory usage: 153.5+ KB


In [139]:
unique_speech_values = feature_engineering_df["Speech"].unique()
print(unique_speech_values)

['Mr' 'Mrs' 'Miss' 'Master' 'Planke' 'Don' 'Rev' 'Billiard' 'der' 'Walle'
 'Dr' 'Pelsmaeker' 'Mulder' 'y' 'Steen' 'Carlo' 'Mme' 'Impe' 'Ms' 'Major'
 'Gordon' 'Messemaeker' 'Mlle' 'Col' 'Capt' 'Velde' 'the' 'Shawah'
 'Jonkheer' 'Melkebeke' 'Cruyssen' 'Khalil' 'Palmquist' 'Brito']


**Typische Titel**:
  - **'Mr'**: Ein allgemeiner Titel für einen erwachsenen Mann.
  - **'Mrs'**: Ein Titel für eine verheiratete Frau.
  - **'Miss'**: Ein Titel für eine unverheiratete Frau.
  - **'Master'**: Ein traditioneller Titel für einen jungen Mann oder Jungen, oft verwendet für Kinder.
  - **'Don'**: Ein Titel, der in einigen spanischsprachigen Ländern sowie in Italien verwendet wird, oft vor dem Vornamen.
  - **'Rev'** (Reverend): Ein religiöser Titel, verwendet für Mitglieder des Klerus.
  - **'Dr'**: Ein akademischer oder professioneller Titel für Personen, die einen Doktorgrad in einem Fachgebiet haben.
  - **'Mme'** (Madame): Ein französischer Titel für eine verheiratete Frau.
  - **'Ms'**: Ein neutraler Titel für Frauen, unabhängig vom Familienstand.
  - **'Major'**: Ein militärischer Rang.
  - **'Mlle'** (Mademoiselle): Ein französischer Titel für eine unverheiratete Frau.
  - **'Col'** (Colonel): Ein militärischer Rang.
  - **'Capt'** (Captain): Ein militärischer Rang oder ein Titel für den Kapitän eines Schiffs oder Flugzeugs.
  - **'Jonkheer'**: Ein niederländischer Adelstitel, äquivalent zu einem unbeerbten Adligen oder einem "Junker".

**Weniger typische oder kontextabhängige Titel**:
  - **'Planke'**, **'Billiard'**, **'der'**, **'Walle'**, **'Pelsmaeker'**, **'Mulder'**, **'y'**, **'Steen'**, **'Carlo'**, **'Impe'**, **'Gordon'**, **'Messemaeker'**, **'Velde'**, **'the'**, **'Shawah'**, **'Melkebeke'**, **'Cruyssen'** **'Brito'** 

In [140]:
# Liste der spezifischen Werte in 'Speech'
specific_speech_values = [
    'Planke', 'Billiard', 'der', 'Walle', 'Pelsmaeker', 'Mulder', 'y', 'Steen', 
    'Carlo', 'Impe', 'Gordon', 'Messemaeker', 'Velde', 'the', 'Shawah', 
    'Melkebeke', 'Cruyssen', 'Brito'
]

# Filtern des DataFrames, um nur Zeilen mit spezifischen 'Speech'-Werten zu behalten
filtered_df = feature_engineering_df[feature_engineering_df['Speech'].isin(specific_speech_values)]

filtered_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Dataset,Surname,Speech,First_Name
18,19,0.0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",31.0,1,0,345763,18.0,,S,Train,Vander,Planke,Mrs Julius (Emelia Maria Vandemoortele)
38,39,0.0,3,"Vander Planke, Miss. Augusta Maria",18.0,2,0,345764,18.0,,S,Train,Vander,Planke,Miss Augusta Maria
153,154,0.0,3,"van Billiard, Mr. Austin Blyler",40.5,0,2,A/5. 851,14.5,,S,Train,van,Billiard,Mr Austin Blyler
170,171,0.0,1,"Van der hoef, Mr. Wyckoff",61.0,0,0,111240,33.5,B19,S,Train,Van,der,hoef Mr Wyckoff
200,201,0.0,3,"Vande Walle, Mr. Nestor Cyriel",28.0,0,0,345770,9.5,,S,Train,Vande,Walle,Mr Nestor Cyriel
282,283,0.0,3,"de Pelsmaeker, Mr. Alfons",16.0,0,0,345778,9.5,,S,Train,de,Pelsmaeker,Mr Alfons
286,287,1.0,3,"de Mulder, Mr. Theodore",30.0,0,0,345774,9.5,,S,Train,de,Mulder,Mr Theodore
307,308,1.0,1,"Penasco y Castellana, Mrs. Victor de Satode (M...",17.0,1,0,PC 17758,108.9,C65,C,Train,Penasco,y,Castellana Mrs Victor de Satode (Maria Josefa ...
333,334,0.0,3,"Vander Planke, Mr. Leo Edmondus",16.0,2,0,345764,18.0,,S,Train,Vander,Planke,Mr Leo Edmondus
355,356,0.0,3,"Vanden Steen, Mr. Leo Peter",28.0,0,0,345783,9.5,,S,Train,Vanden,Steen,Mr Leo Peter


In [141]:
# Entferne die Spalten 'Surname', 'Speech', 'First_Name' aus dem DataFrame
feature_engineering_df = feature_engineering_df.drop(["Surname", "Speech", "First_Name"], axis=1)

# Zeige die ersten Zeilen des angepassten DataFrames
feature_engineering_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Dataset
0,1,0.0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Train
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Train
2,3,1.0,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Train
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,Train
4,5,0.0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S,Train


Erneuter Split diesmal mit den analysierten Anpassungen

In [142]:
# Funktion, um Namen in ihre Bestandteile zu teilen und dabei Sonderfälle zu berücksichtigen
def split_name_advanced(name):
    # Entfernt den Inhalt in Klammern und Anführungszeichen sowie die Klammern und Anführungszeichen selbst
    name_cleaned = re.sub(r'["\(\)].*?["\(\)]', '', name)
    # Zerlegt den Namen anhand von Kommas und Punkten
    parts = re.split(r'[,\.]+ ?', name_cleaned)
    
    # Initialisiert Variablen für die Teile des Namens
    surname = parts[0] if len(parts) > 0 else ""
    speech = parts[1] if len(parts) > 1 else ""
    first_name = " ".join(parts[2:]) if len(parts) > 2 else ""
    
    # Bereinigt den Vornamen von zusätzlichen Leerzeichen
    first_name = re.sub(' +', ' ', first_name).strip()
    
    return surname, speech, first_name

# Angenommen, 'train_data' ist dein DataFrame. Beispiel-Datenstruktur hinzufügen
# Beispiel-Datensatz hier erstellen oder vorhandenen DataFrame 'train_data' verwenden

# Namen in Bestandteile aufteilen und zu DataFrame hinzufügen
feature_engineering_df[['Surname', 'Speech', 'First_Name']] = feature_engineering_df.apply(lambda x: split_name_advanced(x['Name']), axis=1, result_type='expand')


In [143]:
unique_speech_values = feature_engineering_df["Speech"].unique()
print(unique_speech_values)

['Mr' 'Mrs' 'Miss' 'Master' 'Don' 'Rev' 'Dr' 'Mme' 'Ms' 'Major' 'Lady'
 'Sir' 'Mlle' 'Col' 'Capt' 'the Countess' 'Jonkheer' 'Dona']


In [144]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Age          1046 non-null   float64
 5   SibSp        1309 non-null   int64  
 6   Parch        1309 non-null   int64  
 7   Ticket       1309 non-null   object 
 8   Fare         1308 non-null   float64
 9   Cabin        295 non-null    object 
 10  Embarked     1307 non-null   object 
 11  Dataset      1309 non-null   object 
 12  Surname      1309 non-null   object 
 13  Speech       1309 non-null   object 
 14  First_Name   1309 non-null   object 
dtypes: float64(3), int64(4), object(8)
memory usage: 153.5+ KB


**Eindeutig geschlechtsspezifische Titel:**
- **'Mr'**: Männlich
- **'Mrs'**: Weiblich, verheiratet
- **'Miss'**: Weiblich, unverheiratet
- **'Master'**: Männlich, typischerweise ein Junge oder sehr junger Mann
- **'Mme'** (Madame): Weiblich, verheiratet
- **'Ms'**: Weiblich, unabhängig vom Familienstand
- **'Mlle'** (Mademoiselle): Weiblich, unverheiratet
- **'Lady'**: Weiblich, verwendet für eine Frau von Adel oder die Ehefrau eines Ritters
- **'Sir'**: Männlich, verwendet für einen Mann, der zum Ritter geschlagen wurde
- **'the Countess'**: Weiblich, die Ehefrau eines Earls oder eine Gräfin in eigenem Recht
- **'Jonkheer'**: Männlich, niederländischer Adelstitel ohne Erbanspruch
- **'Dona'**: Weiblich

**Titel, die potenziell beiden Geschlechtern zugeordnet sein können:**
- **'Don'**: Traditionell männlich, aber in einigen Kulturen auch für Frauen in der Form "Doña" verwendet.
- **'Rev'** (Reverend): Kann sowohl männliche als auch weibliche Geistliche bezeichnen.
- **'Dr'**: Geschlechtsneutral, bezieht sich auf Personen mit einem Doktorgrad in jeglichem Fachbereich.
- **'Major'**, **'Col'** (Colonel), **'Capt'** (Captain): Diese militärischen Ränge sind geschlechtsneutral, da sie sowohl von Männern als auch von Frauen erreicht werden können.

Mit Hilfe der genderize.io API werden die Pasagiere, bei denen das geschlecht nicht über ienen Titel bestimmte werden kann über den Vornamen klassifiziert. 

Hinzufügen des Geschlechtes

In [145]:
def guess_gender_api(name):
    try:
        response = requests.get(f"https://api.genderize.io/?name={name}")
        response.raise_for_status()  # Stellt sicher, dass ein Fehler geworfen wird bei einer fehlschlagenden Anfrage
        data = response.json()
        return 'male' if data['gender'] == 'male' else 'female'
    except Exception as e:
        print(f"API call failed: {e}")
        return None

# Funktion, um das Geschlecht basierend auf dem Titel zu bestimmen oder die API zu verwenden
def determine_sex(row):
    male_titles = ['Mr', 'Master', 'Sir', 'Jonkheer']
    female_titles = ['Mrs', 'Miss', 'Mme', 'Ms', 'Mlle', 'Lady', 'the Countess', 'Dona']
    neutral_titles = ['Don', 'Rev', 'Dr', 'Major', 'Col', 'Capt']

    if row['Speech'] in male_titles:
        return 1
    elif row['Speech'] in female_titles:
        return 0
    elif row['Speech'] in neutral_titles:
        gender = guess_gender_api(row['First_Name'])
        return 1 if gender == 'male' else 0 if gender == 'female' else None
    else:
        return None

### 100 calls pro Tag nur ausführen wenn notwendig
    



# Pfad zur CSV-Datei das Später erstellt wird
file_path = data_path/'../csv/pre_processed_data/train_test_with_sex.csv'


# Überprüfe, ob die Datei existiert
if not os.path.exists(file_path):
    # Füge die neue 'Sex'-Spalte hinzu, indem die Funktion auf jede Zeile angewendet wird
    feature_engineering_df['Sex'] = feature_engineering_df.apply(determine_sex, axis=1)
    # To csv
    feature_engineering_df.to_csv(file_path, index=False)
else:
    print(f"Datei '{file_path}' existiert bereits. Keine API-Aufrufe notwendig.")
feature_engineering_df = pd.read_csv(file_path)
feature_engineering_df

Datei 'c:\Users\Ivan\Desktop\datasience_project\notebooks\..\csv\pre_processed_data\train_test_with_sex.csv' existiert bereits. Keine API-Aufrufe notwendig.


Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Dataset,Surname,Speech,First_Name,Sex
0,1,0.0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.2500,,S,Train,Braund,Mr,Owen Harris,1
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Train,Cumings,Mrs,John Bradley,0
2,3,1.0,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.9250,,S,Train,Heikkinen,Miss,Laina,0
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1000,C123,S,Train,Futrelle,Mrs,Jacques Heath,0
4,5,0.0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.0500,,S,Train,Allen,Mr,William Henry,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,2.0,3,"Spector, Mr. Woolf",,0,0,A.5. 3236,8.0500,,S,Test,Spector,Mr,Woolf,1
1305,1306,2.0,1,"Oliva y Ocana, Dona. Fermina",39.0,0,0,PC 17758,108.9000,C105,C,Test,Oliva y Ocana,Dona,Fermina,0
1306,1307,2.0,3,"Saether, Mr. Simon Sivertsen",38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S,Test,Saether,Mr,Simon Sivertsen,1
1307,1308,2.0,3,"Ware, Mr. Frederick",,0,0,359309,8.0500,,S,Test,Ware,Mr,Frederick,1


In [146]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Age          1046 non-null   float64
 5   SibSp        1309 non-null   int64  
 6   Parch        1309 non-null   int64  
 7   Ticket       1309 non-null   object 
 8   Fare         1308 non-null   float64
 9   Cabin        295 non-null    object 
 10  Embarked     1307 non-null   object 
 11  Dataset      1309 non-null   object 
 12  Surname      1309 non-null   object 
 13  Speech       1309 non-null   object 
 14  First_Name   1290 non-null   object 
 15  Sex          1309 non-null   int64  
dtypes: float64(3), int64(5), object(8)
memory usage: 163.8+ KB


Komisch dass First_Namen verloren gehen von 1290

In [147]:
# Finde alle Zeilen, bei denen 'First_Name' leer ist
rows_with_empty_first_name = feature_engineering_df[feature_engineering_df['First_Name'].isna()]
rows_with_empty_first_name

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Dataset,Surname,Speech,First_Name,Sex
15,16,1.0,2,"Hewlett, Mrs. (Mary D Kingcome)",55.0,0,0,248706,16.0,,S,Train,Hewlett,Mrs,,0
66,67,1.0,2,"Nye, Mrs. (Elizabeth Ramell)",29.0,0,0,C.A. 29395,10.5,F33,S,Train,Nye,Mrs,,0
166,167,1.0,1,"Chibnall, Mrs. (Edith Martha Bowerman)",,0,1,113505,55.0,E33,S,Train,Chibnall,Mrs,,0
190,191,1.0,2,"Pinsky, Mrs. (Rosa)",32.0,0,0,234604,13.0,,S,Train,Pinsky,Mrs,,0
259,260,1.0,2,"Parrish, Mrs. (Lutie Davis)",50.0,0,1,230433,26.0,,S,Train,Parrish,Mrs,,0
272,273,1.0,2,"Mellinger, Mrs. (Elizabeth Anne Maidment)",41.0,0,1,250644,19.5,,S,Train,Mellinger,Mrs,,0
327,328,1.0,2,"Ball, Mrs. (Ada E Hall)",36.0,0,0,28551,13.0,D,S,Train,Ball,Mrs,,0
362,363,0.0,3,"Barbara, Mrs. (Catherine David)",45.0,0,1,2691,14.4542,,C,Train,Barbara,Mrs,,0
367,368,1.0,3,"Moussa, Mrs. (Mantoura Boulos)",,0,0,2626,7.2292,,C,Train,Moussa,Mrs,,0
483,484,1.0,3,"Turkula, Mrs. (Hedwig)",63.0,0,0,4134,9.5875,,S,Train,Turkula,Mrs,,0


Liegt am Regex. Alle Vornamen in Klammern werden daher gelöscht. Da es sich aber nur um Mrs handelt und man das geschlecht eindeutig zuornen kann ist es nicht weiter wichtig. Vornamen sind über das Geschlechterzuweisen nicht relevant.

### Feature: Cabin Structur

Das aufteilen von Cabin zu Cabin Nummer Cabin_Nr und Board_Deck (Buchstaben aus recherche Quelle) Eventuell hat das einfluss auf die Überlebenschancen Titanik erst vorne gesunken dann zerbrochen...

In [148]:
# Definiere eine Funktion, um Cabin in Boat_Deck und Cabin_Nr aufzuteilen
def split_cabin(cabin):
    if pd.isna(cabin):
        return np.nan, np.nan
    match = re.match(r"([a-zA-Z]+)([0-9]+)?", cabin.replace(" ", ""))
    boat_deck = match.group(1) if match else np.nan
    cabin_nr = match.group(2) if match and match.group(2) else np.nan
    return boat_deck, cabin_nr

# Wende die Funktion auf die Cabin-Spalte an und erstelle zwei neue Spalten
feature_engineering_df[['Boat_Deck', 'Cabin_Nr']] = feature_engineering_df.apply(lambda row: split_cabin(row['Cabin']), axis=1, result_type='expand')

feature_engineering_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Dataset,Surname,Speech,First_Name,Sex,Boat_Deck,Cabin_Nr
0,1,0.0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.2500,,S,Train,Braund,Mr,Owen Harris,1,,
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Train,Cumings,Mrs,John Bradley,0,C,85
2,3,1.0,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.9250,,S,Train,Heikkinen,Miss,Laina,0,,
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1000,C123,S,Train,Futrelle,Mrs,Jacques Heath,0,C,123
4,5,0.0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.0500,,S,Train,Allen,Mr,William Henry,1,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,2.0,3,"Spector, Mr. Woolf",,0,0,A.5. 3236,8.0500,,S,Test,Spector,Mr,Woolf,1,,
1305,1306,2.0,1,"Oliva y Ocana, Dona. Fermina",39.0,0,0,PC 17758,108.9000,C105,C,Test,Oliva y Ocana,Dona,Fermina,0,C,105
1306,1307,2.0,3,"Saether, Mr. Simon Sivertsen",38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S,Test,Saether,Mr,Simon Sivertsen,1,,
1307,1308,2.0,3,"Ware, Mr. Frederick",,0,0,359309,8.0500,,S,Test,Ware,Mr,Frederick,1,,


### Feature: Passagier Clustering (Passagier Relationship)


Alle mit Passagiere mit clustering groupiert und alle aus gleichem Cluster bekommen gleiche  ID

To-Do:
- Ticket trennen nummern als Nummern behaneln buchstaben hot encoden und dann mergen 
- Eventuell Survived-Status mit reinbeziehen
- Weg vom Familien gedanken hin zu Gruppen von Passagieren mit ähnlichen merkmalen und dann den Average Survived-Status berechnen

In [153]:
################# Schritt 1 #############################################

# # Identifiziere Nachnamen, die mehr als einmal vorkommen (nicht alleinreisend)
surname_counts = feature_engineering_df['Surname'].value_counts()
not_single_surnames = surname_counts[surname_counts > 1].index

# Filtere den DataFrame, um Passagiere auszuschließen, deren Nachname nur einmal vorkommt
filtered_df = feature_engineering_df[feature_engineering_df['Surname'].isin(not_single_surnames)].copy()

print(filtered_df.info())
print("-----------------------------------------------------------------------")

################# Schritt 2 #############################################

# Berechnen des Durchschnitts, wie oft ein Nachname vorkommt
average_surname_occurrence = filtered_df['Surname'].value_counts().mean()

print(average_surname_occurrence)
print("-----------------------------------------------------------------------")

################# Schritt 3 #############################################



import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.cluster import AgglomerativeClustering
from sklearn.decomposition import TruncatedSVD
import numpy as np

# Gewichtungsfaktoren definieren
weights = {
    'Level_1': 3,  # Schwerwiegend: Family_Size
    'Level_2': 2,  # Pclass
    'Level_3': 1,  # Fare
}


# Funktion zur Anwendung der Gewichtung
def apply_weighting(df):
   # Label Encoding für 'Surname'
    label_encoder = LabelEncoder()
    df['Surname_encoded'] = label_encoder.fit_transform(df['Surname'])
    df['Embarked_encoded'] = label_encoder.fit_transform(df['Embarked'])


    ## Warum wird hier nicht auch SPEECH werwendet ? Mr, Miss etc.

    
#     # Manuelle Gewichtung für 'Pclass' und 'Family_Size'
#     df['Pclass_weighted'] = df['Pclass'] * weights['Level_2']
#     df['Family_Size_weighted'] = (df['SibSp'] + df['Parch']) * weights['Level_1']
#     df['Surname_encoded'] =  df['Surname_encoded'] * weights['Level_1']
#     df['Embarked_encoded'] =  df['Embarked_encoded'] * weights['Level_1']
#    # Manuelle Gewichtung für 'Pclass' und 'Family_Size'

    df['Pclass_weighted'] = df['Pclass'] * 4
    df['Family_Size_weighted'] = (df['SibSp'] + df['Parch']) * 5
    df['Surname_encoded'] =  df['Surname_encoded'] * 10
    df['Embarked_encoded'] =  df['Embarked_encoded'] 

    return df

# Vorverarbeitungspipeline definieren
numerical_features = ['Fare', 'Pclass_weighted', 'Family_Size_weighted', 'Surname_encoded']  # Füge 'Surname_encoded' zu den numerischen Features hinzu
# categorical_features = ['Ticket']

# Imputer für numerische und kategorische Daten
numerical_imputer = SimpleImputer(strategy='median')
categorical_imputer = SimpleImputer(strategy='constant', fill_value='missing')

# Erstellen der Vorverarbeitungspipeline
preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline([('imputer', numerical_imputer), ('scaler', StandardScaler())]), numerical_features),
     #   ('cat', Pipeline([('imputer', categorical_imputer), ('encoder', OneHotEncoder(handle_unknown='ignore'))]), categorical_features)
    ]
)

# Gewichtete Features hinzufügen und NaN-Werte behandeln
weighted_df = apply_weighting(filtered_df)
X_preprocessed = preprocessor.fit_transform(weighted_df)


# Anzahl der Komponenten anpassen
n_components = min(X_preprocessed.shape[1], 50)  # Beispiel: Maximal 50 oder weniger, basierend auf der Anzahl der Features
svd = TruncatedSVD(n_components=n_components)
X_svd = svd.fit_transform(X_preprocessed)


# Anwendung von hierarchischem Clustering nach der Dimensionalitätsreduktion
# Wir verwenden 'ward' als Linkage-Kriterium, das darauf abzielt, die Varianz in jedem Cluster zu minimieren.
# 'n_clusters' ist optional und kann angepasst werden, um die Anzahl der gewünschten Cluster festzulegen.
agglomerative = AgglomerativeClustering(n_clusters=None, distance_threshold=0.5, linkage='ward')
clusters_agg = agglomerative.fit_predict(X_svd)

# Aktualisierung der Cluster-Labels
weighted_df['Family_Cluster_Agg'] = clusters_agg
family_id_map_agg = {cluster_id: idx+1 for idx, cluster_id in enumerate(set(clusters_agg)) if cluster_id != -1}
weighted_df['SurnameID'] = weighted_df['Family_Cluster_Agg'].map(family_id_map_agg).fillna(0)
weighted_df.drop(["Family_Cluster_Agg"], axis=1, inplace=True)

<class 'pandas.core.frame.DataFrame'>
Index: 672 entries, 0 to 1308
Data columns (total 18 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  672 non-null    int64  
 1   Survived     672 non-null    float64
 2   Pclass       672 non-null    int64  
 3   Name         672 non-null    object 
 4   Age          562 non-null    float64
 5   SibSp        672 non-null    int64  
 6   Parch        672 non-null    int64  
 7   Ticket       672 non-null    object 
 8   Fare         672 non-null    float64
 9   Cabin        169 non-null    object 
 10  Embarked     672 non-null    object 
 11  Dataset      672 non-null    object 
 12  Surname      672 non-null    object 
 13  Speech       672 non-null    object 
 14  First_Name   666 non-null    object 
 15  Sex          672 non-null    int64  
 16  Boat_Deck    169 non-null    object 
 17  Cabin_Nr     169 non-null    object 
dtypes: float64(3), int64(5), object(10)
memory usage: 99.8

In [154]:
feature_engineering_df = weighted_df
feature_engineering_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Speech,First_Name,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID
0,1,0.0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,...,Mr,Owen Harris,1,,,290,2,12,5,16
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,...,Mrs,John Bradley,0,C,85.0,610,0,4,5,27
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,...,Mrs,Jacques Heath,0,C,123.0,880,2,4,5,43
4,5,0.0,3,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,...,Mr,William Henry,1,,,50,2,12,0,69
5,6,0.0,3,"Moran, Mr. James",,0,0,330877,8.4583,,...,Mr,James,1,,,1590,1,12,0,10


Merge feature-Engineering df mit weigthed dg damit  

Anderer ansatz 1: 

In [155]:
# import pandas as pd
# from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
# from sklearn.compose import ColumnTransformer
# from sklearn.pipeline import Pipeline
# from sklearn.impute import SimpleImputer
# from sklearn.cluster import AgglomerativeClustering
# from sklearn.decomposition import TruncatedSVD
# import numpy as np




# # Gewichtungsfaktoren definieren
# weights = {
#     'Level_1': 3,  # Schwerwiegend: Family_Size
#     'Level_2': 2,  # Pclass
#     'Level_3': 1,  # Fare
# }


# # Funktion zur Anwendung der Gewichtung
# def apply_weighting(df):
#     # Label Encoding für 'Surname'
#     label_encoder = LabelEncoder()
#     df['Surname_encoded'] = label_encoder.fit_transform(df['Surname'])
#     df['Embarked_encoded'] = label_encoder.fit_transform(df['Embarked'])

    
#     # # Manuelle Gewichtung für 'Pclass' und 'Family_Size'
#     # df['Pclass_weighted'] = df['Pclass'] * weights['Level_2']
#     # df['Family_Size_weighted'] = (df['SibSp'] + df['Parch']) * weights['Level_1']
#     # df['Surname_encoded'] =  df['Surname_encoded'] * weights['Level_1']
#     # df['Embarked_encoded'] =  df['Embarked_encoded'] * weights['Level_1']
#     # Manuelle Gewichtung für 'Pclass' und 'Family_Size'
#     df['Pclass_weighted'] = df['Pclass'] * 4
#     df['Family_Size_weighted'] = (df['SibSp'] + df['Parch']) * 5
#     df['Surname_encoded'] =  df['Surname_encoded'] * 10
#     # df['Embarked_encoded'] =  df['Embarked_encoded'] 

#     return df

# # Vorverarbeitungspipeline definieren
# numerical_features = ['Fare', 'Pclass_weighted', 'Family_Size_weighted', 'Surname_encoded']  # Füge 'Surname_encoded' zu den numerischen Features hinzu
# categorical_features = ['Ticket']

# # Imputer für numerische und kategorische Daten
# numerical_imputer = SimpleImputer(strategy='median')
# # categorical_imputer = SimpleImputer(strategy='constant', fill_value='missing')

# # Erstellen der Vorverarbeitungspipeline
# preprocessor = ColumnTransformer(
#     transformers=[
#         ('num', Pipeline([('imputer', numerical_imputer), ('scaler', StandardScaler())]), numerical_features),
#         ('cat', Pipeline([('imputer', categorical_imputer), ('encoder', OneHotEncoder(handle_unknown='ignore'))]), categorical_features)
#     ]
# )

# # Gewichtete Features hinzufügen und NaN-Werte behandeln
# # Stellen Sie sicher, dass 'feature_engineering_df' Ihr DataFrame ist
# weighted_df = apply_weighting(filtered_df)
# X_preprocessed = preprocessor.fit_transform(weighted_df)

# # Anzahl der Komponenten anpassen
# n_components = min(X_preprocessed.shape[1], 50)  # Beispiel: Maximal 50 oder weniger, basierend auf der Anzahl der Features
# svd = TruncatedSVD(n_components=n_components)
# X_svd = svd.fit_transform(X_preprocessed)

# # Anwendung von hierarchischem Clustering nach der Dimensionalitätsreduktion
# agglomerative = AgglomerativeClustering(n_clusters=None, distance_threshold=0.5, linkage='ward')
# clusters_agg = agglomerative.fit_predict(X_svd)

# # Aktualisierung der Cluster-Labels
# weighted_df['Family_Cluster_Agg'] = clusters_agg
# family_id_map_agg = {cluster_id: idx+1 for idx, cluster_id in enumerate(set(clusters_agg)) if cluster_id != -1}
# weighted_df['Family_ID_Agg'] = weighted_df['Family_Cluster_Agg'].map(family_id_map_agg).fillna(0)


Anderer Ansatz 2:

In [156]:
# # Ohne alleinreisende nachname nur ein Mal im Datensatz


# import pandas as pd
# from sklearn.preprocessing import StandardScaler, OneHotEncoder
# from sklearn.compose import ColumnTransformer
# from sklearn.pipeline import Pipeline, make_pipeline
# from sklearn.cluster import DBSCAN
# from sklearn.impute import SimpleImputer
# from itertools import count


# # Annahme: 'feature_engineering_df' ist dein DataFrame

# # Identifiziere Nachnamen, die mehr als einmal vorkommen (nicht alleinreisend)
# surname_counts = feature_engineering_df['Surname'].value_counts()
# not_single_surnames = surname_counts[surname_counts > 1].index

# # Filtere den DataFrame, um Passagiere auszuschließen, deren Nachname nur einmal vorkommt
# filtered_df = feature_engineering_df[feature_engineering_df['Surname'].isin(not_single_surnames)].copy()

# # Erstelle ein neues Feature 'Family_Size'
# filtered_df['Family_Size'] = filtered_df['SibSp'] + filtered_df['Parch']


# # Definiere numerische und kategorische Pipelines
# numerical_pipeline = Pipeline(steps=[
#     ('imputer', SimpleImputer(strategy='median')),
#     ('scaler', StandardScaler())])

# categorical_pipeline = Pipeline(steps=[
#     ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
#     ('onehot', OneHotEncoder(handle_unknown='ignore'))])

# # Kombiniere die Pipelines
# preprocessor = ColumnTransformer(transformers=[
#     ('num', numerical_pipeline, ['Pclass', 'Fare', 'Family_Size']),
#     ('cat', categorical_pipeline, ['Ticket', 'Cabin', 'Embarked', 'Surname'])
# ])

# # Wende die Vorverarbeitung auf die ausgewählten Features an und führe das Clustering durch
# X_preprocessed = preprocessor.fit_transform(filtered_df)


# dbscan = DBSCAN(eps=1, min_samples=4)
# clusters = dbscan.fit_predict(X_preprocessed)

# # Füge die Cluster-Labels dem DataFrame hinzu, verwende .loc um Warnungen zu vermeiden
# filtered_df.loc[:, 'Family_Cluster'] = clusters

# # Zuweisung einer eindeutigen Familien-ID für jedes Cluster, behandele alleinreisende nach dem Filtern
# family_id_map = {cluster_id: idx+1 for idx, cluster_id in enumerate(set(clusters)) if cluster_id != -1}
# filtered_df.loc[:, 'Family_ID'] = filtered_df['Family_Cluster'].map(family_id_map).fillna(0)

# # Um alleinreisende Passagiere zu berücksichtigen, kannst du den ursprünglichen DataFrame aktualisieren
# # oder mit der filtered_df arbeiten, je nach Bedarf
# # Optional: Zuweisung einer eindeutigen Familien-ID für jedes Cluster
# # family_id_map = {cluster_id: idx+1 for idx, cluster_id in enumerate(set(clusters)) if cluster_id != -1}
# # filtered_df['Family_ID'] = filtered_df['Family_Cluster'].map(family_id_map).fillna(0)
# filtered_df.head(5)

Um Fälle zu identifizieren, bei denen Passagiere potenziell familiär verbunden sind, und diese Information in einer neuen Spalte `Fam_Related` im Datensatz festzuhalten, können wir ein detailliertes Regelwerk aufstellen. Dieses Regelwerk basiert auf einer Reihe von Kriterien, die gemeinsame Merkmale zwischen den Passagieren hervorheben. Hier die verfeinerten Kriterien:

1. **Gleicher Nachname (`Surname`)**: Dies ist ein starker Indikator für eine familiäre Verbindung.
2. **Identischer Abfahrtshafen (`Embarked`)**: Passagiere, die am gleichen Ort einsteigen, könnten zusammen reisen.
3. **Ticketnummernähnlichkeit (`Ticket`)**: Ähnliche oder sequenzielle Ticketnummern deuten darauf hin, dass die Tickets zusammen gekauft wurden.
4. **Gleiche Passagierklasse (`Pclass`)**: Eine Übereinstimmung in der Klassenwahl kann weitere Hinweise auf eine gemeinsame Reiseplanung geben.
5. **Ticketpreisähnlichkeit (`Fare`)**: Ein nahezu identischer Ticketpreis, innerhalb einer kleinen Toleranz (z.B. ±5 Einheiten), kann auf eine Gruppenbuchung hindeuten.
6. **Altersähnlichkeit (`Age`)**: Ein Altersunterschied innerhalb einer akzeptablen Spanne (z.B. ±10 Jahre) könnte auf Geschwister oder Cousinen und Cousins hindeuten.
7. **Fehlende direkte Verwandtschaftsbeziehungen (`SibSp`, `Parch`)**: Die Abwesenheit direkter familiärer Bindungen (beide Spalten gleich 0) schließt enge Verwandtschaft aus, lässt aber Raum für erweiterte familiäre Beziehungen.

Das Regelwerk ermöglicht es, potenzielle familiäre Verbindungen zu ermitteln, auch wenn keine direkten Verwandtschaftsverhältnisse (wie Geschwister oder Eltern-Kind-Beziehungen) vorliegen. Es hilft, Passagiere zu identifizieren, die aufgrund ähnlicher Umstände und Merkmale wahrscheinlich in einer Beziehung zueinander stehen, wie beispielsweise Cousins und Cousinen. Durch die Anwendung dieser Kriterien auf den Datensatz können interessante Muster und Beziehungen zwischen den Passagieren aufgedeckt werden, die für weitere Analysen und Einsichten von Bedeutung sein könnten.

In [157]:
# from itertools import count

# def ticket_number_difference(ticket1, ticket2):
#     # Entferne alle Nicht-Ziffern und konvertiere zu int, falls möglich
#     try:
#         num1, num2 = int(''.join(filter(str.isdigit, ticket1))), int(''.join(filter(str.isdigit, ticket2)))
#     except ValueError:
#         # Wenn die Konvertierung fehlschlägt, setze einen hohen Wert, um anzudeuten, dass die Tickets nicht ähnlich sind
#         return 9999
#     # Berechne die Differenz
#     return abs(num1 - num2)

# def check_familial_relationship(row, df):
#     fare_difference_threshold = 1000
#     relations = 0
#     for _, potential_relative in df[(df['Surname'] == row['Surname']) & (df['PassengerId'] != row['PassengerId'])].iterrows():
#         if (row['Embarked'] == potential_relative['Embarked']) and \
#            (row['Pclass'] == potential_relative['Pclass']) and \
#            (abs(row['Fare'] - potential_relative['Fare']) <= fare_difference_threshold) and \
#            (ticket_number_difference(row['Ticket'], potential_relative['Ticket']) <= 300):
#             relations += 1
#     return relations

# # Anwenden der Funktion auf jede Zeile und Erstellen der neuen Spalte 'Other_Fam_Members'
# feature_engineering_df['Other_Fam_Members'] = feature_engineering_df.apply(lambda row: check_familial_relationship(row, feature_engineering_df), axis=1)

# # Generierung einer eindeutigen Familien-ID für jede potenzielle Familie
# family_id_counter = count(start=1)
# family_id_map = {}
# for index, row in feature_engineering_df.iterrows():
#     key = (row['Surname'], row['Ticket'][:min(3, len(row['Ticket']))])  # Verwende die ersten 3 Zeichen des Tickets für die Schlüsselbildung
#     if key not in family_id_map:
#         family_id_map[key] = next(family_id_counter)
#     feature_engineering_df.at[index, 'Family_ID'] = family_id_map[key]




- Other_Fam_Members: Sind alle Familienmitglieder die anhand der Kriterien berehcnet wurdern. (ohne dass man sich mitzählt) (ist ein Guess)
- Blood_Fam_Members: Sind die Familien-Mitglieder die durch das summieren von SibSp und Parch entsteht (ohne dass man sich mitzählt) (harte Zahlen)
- Total_Blood_Fam_Members: Sind die Familien-Mitglieder die durch das summieren von SibSp und Parch entsteht (+ sich selber +1) (harte Zahlen)
- Total_Fam: Ist die gesamte Familie mit sich selber (+1) 
    - Wenn Other_Fam_Members == Blood_Fam_Members nicht unterscheiden, ist davon auszugehen, dass nur die direkt in verbindung stehende Familie an Board ist (Mutter Vater Kind  kein Cousin) und Total_Fam = Total_Blood_Fam_Members
    - Wenn Other_Fam_Members > als Blood_Fam_Members dann ist davon auszugehen, dass neben der Blut-Familie noch weiter Familienmitgleider wie Cousinen und Cousin an Board sind und die Total_Fam = Other_Fam_Members + 1
    - Wenn Blood_Fam_Members > als Other_Fam_Members dann ist davon auszugehen, dass das Regelwerk zum berechnen von Other_Fam_Members nicht funktioniert hat bzw. dass es einen Ausreiser gab (z.B. der Vater hat sein Ticket in einer anderen Stadt gekauft und ist woanders der Titanik zugestoßen) dann ist der Score Other_Fam_Members nciht vertrauenswürdig und Total_Fam = Total_Blood_Fam_Members. Zusätlich müssen diese Sonderfälle in einer weitern Spalte markiert werden.

Um deine Anforderungen umzusetzen, werde ich die gewünschten Berechnungen durchführen und entsprechende Spalten in `feature_engineering_df` hinzufügen. Die Anforderungen sind:

1. `Other_Fam_Members`: Die Anzahl der Familienmitglieder, die anhand der Kriterien berechnet wurden, ohne den Passagier selbst mitzuzählen. Dies basiert auf einer Schätzung und wird als bereits berechnet angenommen.
2. `Blood_Fam_Members`: Die Anzahl der Familienmitglieder, die durch das Summieren von `SibSp` und `Parch` entsteht, ohne den Passagier selbst mitzuzählen.
3. `Total_Blood_Fam_Members`: Die Anzahl der Familienmitglieder, die durch das Summieren von `SibSp` und `Parch` entsteht, inklusive des Passagiers selbst (+1).
4. `Total_Fam`: Die Gesamtanzahl der Familie inklusive des Passagiers selbst (+1), basierend auf den gegebenen Regeln.

Dieser Code führt die Berechnungen basierend auf den bereitgestellten Regeln durch und fügt die resultierenden Werte als neue Spalten dem DataFrame hinzu. Die `Special_Case` Spalte markiert Fälle, in denen die Anzahl der direkten Blutsverwandten größer ist als die Anzahl der anhand der Kriterien geschätzten erweiterten Familienmitglieder, was darauf hindeutet, dass das Regelwerk möglicherweise nicht korrekt angewendet wurde oder es Ausnahmefälle gibt.

### Feauture: Group-Survival

Idee von meiner Family Gruppe nehem ich jetzt den Durchschnitt der überelebeten und füge diese Zahl allen Personen der Gruppe hinzu 

In [158]:
# Passagiere, deren `Survived`-Wert 2 ist, ignorieren und durchschnittliche Überlebensrate berechnen
survived_filtered = feature_engineering_df[feature_engineering_df['Survived'] != 2].copy()

# Durchschnittliche Überlebensrate für jede Nachnamensgruppe berechnen
average_survival_rate = survived_filtered.groupby('Surname')['Survived'].mean().reset_index(name='AverageSurvivalRate')

# Durchschnittliche Überlebensrate dem ursprünglichen DataFrame hinzufügen
feature_engineering_df = feature_engineering_df.merge(average_survival_rate, on='Surname', how='left')

In [159]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           672 non-null    int64  
 1   Survived              672 non-null    float64
 2   Pclass                672 non-null    int64  
 3   Name                  672 non-null    object 
 4   Age                   562 non-null    float64
 5   SibSp                 672 non-null    int64  
 6   Parch                 672 non-null    int64  
 7   Ticket                672 non-null    object 
 8   Fare                  672 non-null    float64
 9   Cabin                 169 non-null    object 
 10  Embarked              672 non-null    object 
 11  Dataset               672 non-null    object 
 12  Surname               672 non-null    object 
 13  Speech                672 non-null    object 
 14  First_Name            666 non-null    object 
 15  Sex                   6

Gebe allen Personen die in der Spalte AverageSurvivalRate Nan haben den Wert den Sie sie in Survived haben. Wenn eine Person in Survide 2 Stehen hat (dann soll in  AverageSurvivalRate -1 Eingetragen werden) Dass soll sind Personen die alleine Reisen (keine Familie an Board) und bei denen man nicht weiß ob sie Überlebt haben oder nicht 

In [160]:
# Ersetze NaN in `AverageSurvivalRate` basierend auf den Bedingungen
def update_average_survival(row):
    if pd.isna(row['AverageSurvivalRate']):
        return row['Survived']
    return row['AverageSurvivalRate']

# Aktualisiere `AverageSurvivalRate` für alle Zeilen
feature_engineering_df['AverageSurvivalRate'] = feature_engineering_df.apply(update_average_survival, axis=1)

# Setze `AverageSurvivalRate` auf -1 für alle Personen, deren `Survived` 2 ist
feature_engineering_df.loc[feature_engineering_df['Survived'] == 2.0, 'AverageSurvivalRate'] = -1.0

In [161]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           672 non-null    int64  
 1   Survived              672 non-null    float64
 2   Pclass                672 non-null    int64  
 3   Name                  672 non-null    object 
 4   Age                   562 non-null    float64
 5   SibSp                 672 non-null    int64  
 6   Parch                 672 non-null    int64  
 7   Ticket                672 non-null    object 
 8   Fare                  672 non-null    float64
 9   Cabin                 169 non-null    object 
 10  Embarked              672 non-null    object 
 11  Dataset               672 non-null    object 
 12  Surname               672 non-null    object 
 13  Speech                672 non-null    object 
 14  First_Name            666 non-null    object 
 15  Sex                   6

In [162]:
test_3 = feature_engineering_df[feature_engineering_df["SurnameID"]==7]
test_3

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,First_Name,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID,AverageSurvivalRate
54,103,0.0,1,"White, Mr. Richard Frasar",21.0,0,1,35281,77.2875,D26,...,Richard Frasar,1,D,26.0,2260,2,4,5,7,0.0
68,125,0.0,1,"White, Mr. Percival Wayland",54.0,0,1,35281,77.2875,D26,...,Percival Wayland,1,D,26.0,2260,2,4,5,7,0.0
83,156,0.0,1,"Williams, Mr. Charles Duane",51.0,0,1,PC 17597,61.3792,,...,Charles Duane,1,,,2300,0,4,5,7,0.25
188,367,1.0,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)",60.0,1,0,110813,75.25,D37,...,Frank Manley,0,D,37.0,2200,0,4,5,7,1.0
458,915,2.0,1,"Williams, Mr. Richard Norris II",21.0,0,1,PC 17597,61.3792,,...,Richard Norris II,1,,,2300,0,4,5,7,-1.0
563,1128,2.0,1,"Warren, Mr. Frank Manley",64.0,1,0,110813,75.25,D37,...,Frank Manley,1,D,37.0,2200,0,4,5,7,-1.0


In [163]:
test_3 = feature_engineering_df[feature_engineering_df["Surname"]=="Futrelle"]
test_3

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,First_Name,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID,AverageSurvivalRate
2,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,...,Jacques Heath,0,C,123,880,2,4,5,43,0.5
73,138,0.0,1,"Futrelle, Mr. Jacques Heath",37.0,1,0,113803,53.1,C123,...,Jacques Heath,1,C,123,880,2,4,5,43,0.5


### Feauture: Alter Aufffüllen

**Problem:** In meinem Datensatz fehlen in einem nicht zu kleinen Teil der Objekte / Zeilen das Alter (Wert in Spalte Age)<br>

**Einstufung des Problems:**  Bei diesem Problem handeltes sich um ein wichtiges Feature was zur Erstellung eines gut performenden Modells benötigt wird. Frauen und Kinder wurden bevorzugt geretet beim Titanik-Unglück. Fehlende Altersdaten sollten daher nicht einfach mit dem Mean des Alters des gesamten Datensatz aufgewogen werden. Dies könnte z.B dazu führen, dass ein Kind wegen des Alters nicht als Kind erkannt werden könnte. Das kann zu Performenceeinbußen führen da das alter ein guter hinweiß darauf ist ob die Person das Unglück überlebt hat oder nicht.
<br>

**Beschreibung der Daten:** Folgende Dinge sind gegbeben: Jede Zeile des Datensatz bildet einen Passagier der Titanik ab. Der der Spalte Age befindet sich dass alter eines Passageier. In der Splate Sex werden die Geschlechtsdaten gespeichert (1=Man, 0=Frau). In der Spalte Family_ID ist eine eindeutige ID die die Familienzugehörigkeit darstellt. In der Spalte Speech ist der Title des Passagiers (z.B. Mr, Miss, Master...etc.). Mit den Spalten SibSp und Parch lassen sich die Strukturen der Familie ablesen. Wenn ein Passagier SibSp 0 und Parch 2 hat, während andere Passagiere mit der gleichen Family_ID jeweils SibSp 1 und Parch 0 haben, dann heißt es dass die erste Passagier das Elternteil (Parchil = Parent / Children ) und die zwei anderen Passagiere die Kinder (SibSp= Geschwister/Partner) sind.<br> 

**Lösungsansatz:** Um das oben beschriebene Problem zu lösen mit den beschriebenen Daten, sollte in Abhängigkeit von Familienstrukturen (SibSp / Parchil / Family_ID), Geschlecht und Titel, das Alter ermittelt werden.<br>

**Vorgehen zur Lösung des Problems:** Es muss ein Regelwerk definiert werden, nach dem das alter ermittelt werden kann:<br>
    - Regel 1: Hat der Passagier Familie (Gruppe mit gleicher Family_id > 0)? <br>
        - a) Wenn ja dann soll überprüft werden ob in Familie altersdaten vorhanden sind.<br>
            - a1) Ja -> Dann gehe zu Regel 2.<br>
            - a2) Nein Führe b) aus.<br>
        - b) Wenn nein dann soll geschaut werden welchen Titel (Spalte Speech) dieser allein reisender Passagier hat. Es soll dann nämlich das durchschnittliche Alter der Gruppe an Passagieren mit dem gleichen Titel bekommen.<br>
    - Regel 2: Ist die Person ein Elternteil (Vater/Mutter)<br>
        - a) Wenn ja dann soll überprüft Wie alt die Kinder und der Partner sind. Passagier sollte dann auf jedenfall wesentlich älter als die Kinder sein und ähnlich alt wie der Partner (Wenn vorhanden)<br>
    - etc..  (Siehe Notizen Beispiele für Regeln)
    
-----
**Notizen**<br>
- Wenn ein es eine verheiratete Frau oder Mann ist:
    - Kein Kind: am Ehemann orientieren  (Wie alt dieser ist)
    - Kinder: Schauen wie alt diese sind (plus Eheman wenn vorhanden) und daran orientieren
    - Ohne Kinder und Mann den Durchschnitt nehmen 
- Kinder:
    - Schauen wie alt geschwister + Eltern sind daran dann schätzen.


Diese möchte ich nun ausfüllen hierbei möchte ich mir bei den Objekten/Zeilen  wo Age fehlt wie folgt vorgehen:

Ich möchte mir die Familienverhältnisse. Wenn die Person alleine reist dann bekommt sie einfach das Durchschnittsalter von allen Personen des Datensatz die den gleichen Title träge (Spalte Speech, z.B Mr).
Wenn die Person nicht  alleine reist dann soll wie folgt vorgegangen werden:
Es soll erst der Title betrachtet werden. Z.b Mister deutet darauf hin dass es ein Kind ist und wahrscheinlich nicht älter als 10 Jahre. Bei Mrs würde es bedeuten dass die Frau schon verheiratet ist und wahrscheinlich älter als 18 Jahre. Danach will schauen ob die Person eventuell Eltern oder geschwister hat. Wenn z.b ein Mr 3 Geschwister hat (alle im alter von 15 bis 20) und die Eltern beide (ca. 40 Jahre) alt sind, dann soll dass für diese Persopn als Age der durchschnitt im Alter seiner geschwister genommen werden. Wenn ein Person 2 Junge Eltern hat (beide um die 25 Jahre) dann lässt sich daduch rückschließen dass das Kind z.b nicht älter als 7-8 Jahre alt sein kann.

Sollte eine ehepaar ohne Kinder  an Board sein und sie ist 31 und bei Ihm fehlt dass alter, dann will ich dass er pauschal 2 Jahre-4 jahre älter als sie geschätzt wird (also ca 33-36) da es üblich ist dass Männer etwas älter als Ihre Partnerinnen sind   

Ich möchte so geschickt die Fehlenden alter auffüllen.

In [164]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           672 non-null    int64  
 1   Survived              672 non-null    float64
 2   Pclass                672 non-null    int64  
 3   Name                  672 non-null    object 
 4   Age                   562 non-null    float64
 5   SibSp                 672 non-null    int64  
 6   Parch                 672 non-null    int64  
 7   Ticket                672 non-null    object 
 8   Fare                  672 non-null    float64
 9   Cabin                 169 non-null    object 
 10  Embarked              672 non-null    object 
 11  Dataset               672 non-null    object 
 12  Surname               672 non-null    object 
 13  Speech                672 non-null    object 
 14  First_Name            666 non-null    object 
 15  Sex                   6

In [165]:
# from sklearn.linear_model import LinearRegression
# from sklearn.metrics import mean_squared_error
# from sklearn.preprocessing import LabelEncoder

# # Label Encoding für 'Surname'
# label_encoder = LabelEncoder()
# feature_engineering_df['Surname_encoded'] = label_encoder.fit_transform(feature_engineering_df['Surname'])
# feature_engineering_df['Embarked_encoded'] = label_encoder.fit_transform(feature_engineering_df['Embarked'])
# feature_engineering_df['Speech_encoded'] = label_encoder.fit_transform(feature_engineering_df['Speech'])



# # Wähle Features, die für die Vorhersage des Alters verwendet werden sollen
# # Dies ist ein Beispiel. Du solltest die Features basierend auf deinem Wissen über die Daten auswählen
# features = ['Pclass', 'SibSp', 'Parch', 'Fare', 'Sex', 'AverageSurvivalRate', 'Surname_encoded', 'Embarked_encoded', 'Speech_encoded']

# # DataFrame, in dem Age bekannt ist
# df_known_age = feature_engineering_df.dropna(subset=['Age'])

# # DataFrame, in dem Age fehlt
# df_unknown_age = feature_engineering_df[feature_engineering_df['Age'].isnull()]

# # Das Regressionsmodell initialisieren
# model = LinearRegression()

# # Trainiere das Modell
# model.fit(df_known_age[features], df_known_age['Age'])

# # Vorhersagen für die fehlenden Werte machen
# predicted_ages = model.predict(df_unknown_age[features])

# # Füge die vorhergesagten Werte in den ursprünglichen DataFrame ein
# feature_engineering_df.loc[feature_engineering_df['Age'].isnull(), 'Age'] = predicted_ages

In [166]:
# from sklearn.ensemble import RandomForestRegressor
# from sklearn.linear_model import LinearRegression
# from sklearn.metrics import mean_squared_error
# from sklearn.preprocessing import LabelEncoder

# # Label Encoding für 'Surname'
# label_encoder = LabelEncoder()
# feature_engineering_df['Surname_encoded'] = label_encoder.fit_transform(feature_engineering_df['Surname'])
# feature_engineering_df['Embarked_encoded'] = label_encoder.fit_transform(feature_engineering_df['Embarked'])
# feature_engineering_df['Speech_encoded'] = label_encoder.fit_transform(feature_engineering_df['Speech'])

# # DataFrame, in dem Age bekannt ist
# df_known_age = feature_engineering_df.dropna(subset=['Age'])

# # DataFrame, in dem Age fehlt
# df_unknown_age = feature_engineering_df[feature_engineering_df['Age'].isnull()]


# # Initialisiere das Random Forest Modell
# model_rf = RandomForestRegressor(n_estimators=100, random_state=42) # Du kannst mit diesen Parametern experimentieren

# # Trainiere das Modell mit den bekannten Alterswerten
# model_rf.fit(df_known_age[features], df_known_age['Age'])

# # Mache Vorhersagen für die fehlenden Alterswerte
# predicted_ages_rf = model_rf.predict(df_unknown_age[features])

# # Füge die vorhergesagten Werte in den DataFrame ein
# feature_engineering_df.loc[feature_engineering_df['Age'].isnull(), 'Age'] = predicted_ages_rf


In [167]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import LabelEncoder

# Label Encoding für 'Surname'
label_encoder = LabelEncoder()

#feature_engineering_df['Surname_encoded'] = label_encoder.fit_transform(feature_engineering_df['Surname'])
#feature_engineering_df['Embarked_encoded'] = label_encoder.fit_transform(feature_engineering_df['Embarked'])
feature_engineering_df['Speech_encoded'] = label_encoder.fit_transform(feature_engineering_df['Speech'])



# Wähle Features, die für die Vorhersage des Alters verwendet werden sollen
# Dies ist ein Beispiel. Du solltest die Features basierend auf deinem Wissen über die Daten auswählen
features = ['Pclass', 'SibSp', 'Parch', 'Fare', 'Sex', 'AverageSurvivalRate', 'Surname_encoded', 'Embarked_encoded', 'Speech_encoded']


# DataFrame, in dem Age bekannt ist
df_known_age = feature_engineering_df.dropna(subset=['Age'])

# DataFrame, in dem Age fehlt
df_unknown_age = feature_engineering_df[feature_engineering_df['Age'].isnull()]


# Initialisiere das Random Forest Modell
model_rf = RandomForestRegressor(n_estimators=100, random_state=42) # Du kannst mit diesen Parametern experimentieren



# Wähle die Features und das Target für die Kreuzvalidierung aus
X = df_known_age[features]
y = df_known_age['Age']

# Führe die Kreuzvalidierung durch
# cv=5 definiert die Anzahl der Folds
# scoring='neg_mean_squared_error' bedeutet, dass der negative mittlere quadratische Fehler als Metrik verwendet wird
scores = cross_val_score(model_rf, X, y, cv=5, scoring='neg_mean_squared_error')

# Konvertiere die Scores in positive Werte
mse_scores = -scores

# Berechne die durchschnittliche Leistung
print(f"Durchschnittlicher MSE: {mse_scores.mean()} (je kleiner, desto besser)")
print(f"Standardabweichung der MSE: {mse_scores.std()} (je kleiner, desto besser)")


# Trainiere das Modell mit den bekannten Alterswerten
model_rf.fit(df_known_age[features], df_known_age['Age'])

# Mache Vorhersagen für die fehlenden Alterswerte
predicted_ages_rf = model_rf.predict(df_unknown_age[features])

# Füge die vorhergesagten Werte in den DataFrame ein
feature_engineering_df.loc[feature_engineering_df['Age'].isnull(), 'Age'] = predicted_ages_rf


Durchschnittlicher MSE: 113.9598528076742 (je kleiner, desto besser)
Standardabweichung der MSE: 15.374550802203569 (je kleiner, desto besser)


In [168]:
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 25 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           672 non-null    int64  
 1   Survived              672 non-null    float64
 2   Pclass                672 non-null    int64  
 3   Name                  672 non-null    object 
 4   Age                   672 non-null    float64
 5   SibSp                 672 non-null    int64  
 6   Parch                 672 non-null    int64  
 7   Ticket                672 non-null    object 
 8   Fare                  672 non-null    float64
 9   Cabin                 169 non-null    object 
 10  Embarked              672 non-null    object 
 11  Dataset               672 non-null    object 
 12  Surname               672 non-null    object 
 13  Speech                672 non-null    object 
 14  First_Name            666 non-null    object 
 15  Sex                   6

### Feauture: Embarked Aufffüllen

In [169]:
embarked_nan = feature_engineering_df[feature_engineering_df["Embarked"].isna()]
embarked_nan

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID,AverageSurvivalRate,Speech_encoded


In [170]:
test_5 = feature_engineering_df[feature_engineering_df["Surname"]=="Icard"]
test_5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID,AverageSurvivalRate,Speech_encoded


In [171]:
test_6 = feature_engineering_df[feature_engineering_df["Surname"]=="Stone"]
test_6

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID,AverageSurvivalRate,Speech_encoded


Einfach Southempton genommen weil da am meisten eingestiegen sind: Höhste Wahrscheinlichkeit

In [172]:
feature_engineering_df["Embarked"].fillna(value="S", inplace=True)
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 25 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           672 non-null    int64  
 1   Survived              672 non-null    float64
 2   Pclass                672 non-null    int64  
 3   Name                  672 non-null    object 
 4   Age                   672 non-null    float64
 5   SibSp                 672 non-null    int64  
 6   Parch                 672 non-null    int64  
 7   Ticket                672 non-null    object 
 8   Fare                  672 non-null    float64
 9   Cabin                 169 non-null    object 
 10  Embarked              672 non-null    object 
 11  Dataset               672 non-null    object 
 12  Surname               672 non-null    object 
 13  Speech                672 non-null    object 
 14  First_Name            666 non-null    object 
 15  Sex                   6

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  feature_engineering_df["Embarked"].fillna(value="S", inplace=True)


### Feauture: Fare Aufffüllen

In [173]:
fare_nan = feature_engineering_df[feature_engineering_df["Fare"].isna()]
fare_nan

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID,AverageSurvivalRate,Speech_encoded


In [174]:
test_5 = feature_engineering_df[feature_engineering_df["Surname"]=="Storey"]
test_5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Sex,Boat_Deck,Cabin_Nr,Surname_encoded,Embarked_encoded,Pclass_weighted,Family_Size_weighted,SurnameID,AverageSurvivalRate,Speech_encoded


In [175]:
feature_engineering_df["Fare"].fillna(value=feature_engineering_df["Fare"].mean(), inplace=True)
feature_engineering_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 672 entries, 0 to 671
Data columns (total 25 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   PassengerId           672 non-null    int64  
 1   Survived              672 non-null    float64
 2   Pclass                672 non-null    int64  
 3   Name                  672 non-null    object 
 4   Age                   672 non-null    float64
 5   SibSp                 672 non-null    int64  
 6   Parch                 672 non-null    int64  
 7   Ticket                672 non-null    object 
 8   Fare                  672 non-null    float64
 9   Cabin                 169 non-null    object 
 10  Embarked              672 non-null    object 
 11  Dataset               672 non-null    object 
 12  Surname               672 non-null    object 
 13  Speech                672 non-null    object 
 14  First_Name            666 non-null    object 
 15  Sex                   6

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  feature_engineering_df["Fare"].fillna(value=feature_engineering_df["Fare"].mean(), inplace=True)


### Dataframes bauen

In [176]:
features = ['PassengerId','Survived','Pclass', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Dataset', 'Sex', 'SurnameID', 'AverageSurvivalRate', 'Surname_encoded', 'Embarked_encoded', 'Speech_encoded']
feature_engineering_df = feature_engineering_df[features]

# Aufteilen in Trainings- und Testdaten
train = feature_engineering_df[feature_engineering_df['Dataset']=="Train"].drop(['Dataset'], axis=1)
test = feature_engineering_df[feature_engineering_df['Dataset']=="Test"].drop(['Dataset'], axis=1)

# Speichern als CSV
train.to_csv( data_path/'../csv/feature_data/train_engineered.csv', index=False)
test.to_csv(data_path/'../csv/feature_data/test_engineered.csv', index=False)

In [177]:
test.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Ticket,Fare,Sex,SurnameID,AverageSurvivalRate,Surname_encoded,Embarked_encoded,Speech_encoded
444,892,2.0,3,34.5,0,0,330911,7.8292,1,33,-1.0,1290,1,6
445,896,2.0,3,22.0,1,1,3101298,12.2875,0,34,-1.0,1100,2,7
446,897,2.0,3,14.0,0,0,7538,9.225,1,109,-1.0,2090,2,6
447,898,2.0,3,30.0,0,0,330972,7.6292,0,31,-1.0,550,1,5
448,899,2.0,2,26.0,1,1,248738,29.0,1,20,-1.0,350,2,6


In [178]:
train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Ticket,Fare,Sex,SurnameID,AverageSurvivalRate,Surname_encoded,Embarked_encoded,Speech_encoded
0,1,0.0,3,22.0,1,0,A/5 21171,7.25,1,16,0.0,290,2,6
1,2,1.0,1,38.0,1,0,PC 17599,71.2833,0,27,1.0,610,0,7
2,4,1.0,1,35.0,1,0,113803,53.1,0,43,0.5,880,2,7
3,5,0.0,3,35.0,0,0,373450,8.05,1,69,0.5,50,2,6
4,6,0.0,3,34.091,0,0,330877,8.4583,1,10,0.333333,1590,1,6
