# Feature Engineering

In [19]:
#%pip install pandas
#%pip install numpy
#%pip install matplotlib
#%pip install seaborn

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline


df = pd.read_csv("../data/raw/Titanic-Dataset.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Features
Las variables creadas para la facilitación de lectura del código y mejorar el modelo generado

### 1. VARIABLE: "title"

In [20]:
# --- 1. VARIABLE: Title (TITULO) ---

def title_feature(df):
    # Avoid inplace=True
    df['Title'] = df['Name'].str.extract(r', (?:the )?([A-Za-z]+)', expand=False)
    df['Title'] = df['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
    df['Title'] = df['Title'].replace('Mlle', 'Miss')
    #df['Title'] = df['Title'].replace('Ms', 'Miss') # Ms no es lo mismo que Miss, Ms es independiente del estado civil
    df['Title'] = df['Title'].replace('Mme', 'Mrs')
    # VERIFICACIÓN DE CALIDAD
    print("VERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'Title':")
    print(df['Title'].value_counts())
    return df

In [21]:
feature_test = title_feature(df)

VERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'Title':
Title
Mr        517
Miss      184
Mrs       126
Master     40
Rare       23
Ms          1
Name: count, dtype: int64


### 2. VARIABLE: "FamilySize"

In [22]:
def family_size_feature(df):
    df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
    # VERIFICACIÓN DE CALIDAD
    print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'FamilySize':")
    print(df['FamilySize'].value_counts().sort_index())
    print("\nVERIFICACIÓN DE LA DISTRIBUCIÓN para 'FamilySize':")
    print(df['FamilySize'].describe())
    return df

### 3. VARIABLE: "IsAlone"


In [23]:
def is_alone_feature(df):
    df['IsAlone'] = (df['FamilySize'] == 1).astype(int)
    # VERIFICACIÓN DE CALIDAD
    print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'IsAlone':")
    print(df['IsAlone'].value_counts())
    print("\nVERIFICACIÓN DE LA DISTRIBUCIÓN para 'IsAlone':")
    print(df['IsAlone'].describe())
    return df

### 4. Variable: "AgeGroup"

In [24]:
def age_group_feature(df):
      # Avoid inplace=True
      df['Age'] = df['Age'].fillna(df['Age'].median())
      bins = [0, 12, 18, 60, np.inf]
      labels = ['Child', 'Adolescent/Teenager', 'Adult', 'Senior']
      df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)
      # VERIFICACIÓN DE CALIDAD
      print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'AgeGroup':")
      print(df['AgeGroup'].value_counts())
      return df

In [25]:
feature_test = age_group_feature(df)


VERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'AgeGroup':
AgeGroup
Adult                  752
Child                   68
Adolescent/Teenager     45
Senior                  26
Name: count, dtype: int64


### 5. VARIABLE: FarePerPerson 

In [26]:
def fare_per_person_feature(df):
    df['FarePerPerson'] = df['Fare'] / df['FamilySize']
    # Avoid inplace=True
    df['FarePerPerson'] = df['FarePerPerson'].fillna(df['FarePerPerson'].mean()) # Manejo de Nulos
    # VERIFICACIÓN DE CALIDAD
    print("\nVERIFICACIÓN DE LA DISTRIBUCIÓN para 'FarePerPerson':")
    print(df['FarePerPerson'].describe())
    return df

### 6. VARIABLE: CabinDeck (CUBIERTA DE LA CABINA) 

In [27]:
def cabin_deck_feature(df):
    df['CabinDeck'] = df['Cabin'].str.extract('([A-Z])', expand=False)
    # Avoid inplace=True
    df['CabinDeck'] = df['CabinDeck'].fillna('Unknown')
    # VERIFICACIÓN DE CALIDAD
    print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'CabinDeck':")
    print(df['CabinDeck'].value_counts())
    return df

In [28]:
feature_test = cabin_deck_feature(df)


VERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'CabinDeck':
CabinDeck
Unknown    687
C           59
B           47
D           33
E           32
A           15
F           13
G            4
T            1
Name: count, dtype: int64


### 7. VARIABLE: CabinKnown (CABINA CONOCIDA)

In [29]:
def cabin_known_feature(df):
  df['CabinKnown'] = df['Cabin'].notnull().astype(int)
  # VERIFICACIÓN DE CALIDAD
  print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'CabinKnown':")
  print(df['CabinKnown'].value_counts())
  print("\nVERIFICACIÓN DE LA DISTRIBUCIÓN para 'CabinKnown':")
  print(df['CabinKnown'].describe())
  return df

In [30]:
feature_test = cabin_known_feature(df)


VERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'CabinKnown':
CabinKnown
0    687
1    204
Name: count, dtype: int64

VERIFICACIÓN DE LA DISTRIBUCIÓN para 'CabinKnown':
count    891.000000
mean       0.228956
std        0.420397
min        0.000000
25%        0.000000
50%        0.000000
75%        0.000000
max        1.000000
Name: CabinKnown, dtype: float64


### 8. VARIABLE: TicketFrequency

In [31]:
def ticket_frequency_feature(df):
  df['TicketFrequency'] = df.groupby('Ticket')['Ticket'].transform('count')
  # VERIFICACIÓN DE CALIDAD
  print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'TicketFrequency':")
  print(df['TicketFrequency'].value_counts().sort_index())
  print("\nVERIFICACIÓN DE LA DISTRIBUCIÓN para 'TicketFrequency':")
  print(df['TicketFrequency'].describe())
  return df

### 9. VARIABLE: Namelength

In [32]:
def name_length_feature(df):
  df['NameLength'] = df['Name'].str.len()
  # VERIFICACIÓN DE CALIDAD
  print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'NameLength':")
  print(df['NameLength'].value_counts().sort_index())
  print("\nVERIFICACIÓN DE LA DISTRIBUCIÓN para 'NameLength':")
  print(df['NameLength'].describe())
  return df

### 10. VARIABLE: LastName (Usada para HasCabinNeighbor)
Solo es necesario tomar el texto hasta la primera coma, pues ya esta separado en el dataset el appellido del resto del nombre y el título

In [33]:
def last_name_feature(df):
    df['LastName'] = df['Name'].str.split(',').str[0]
    return df

### 11. VARIABLE: HasCabinNeighbor (CABINAS CERCANAS CON FAMILIARES )
Esta transformación requiere de varias variables, pero 

In [34]:
def has_cabin_neighbor_feature(df):
    if 'LastName' not in df.columns:
        df = last_name_feature(df)
    if 'CabinDeck' not in df.columns:
        df = cabin_deck_feature(df)
    if 'FamilySize' not in df.columns:
        df = family_size_feature(df)

    # Agrupar familias
    # Asumimos que pasajeros que comparten cubierta, tamaño de familia, y apellido tienen que ser familia.
    group_counts = (
        df.groupby(['LastName', 'FamilySize', 'CabinDeck'])['PassengerId'].transform('count') - 1
    )

    # Solo vamos a guardar si estan o no en la misma cubierta
    # de otra forma solo obtienes la suma de todas las personas multiplicado por los familiares en la misma cubierta.
    df['HasFamilyOnSameDeck'] = (group_counts > 1).astype(int)

    # Verificación de calidad
    print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'HasFamilyOnSameDeck':")
    print(df['HasFamilyOnSameDeck'].value_counts())
    return df

In [35]:
feature_test = has_cabin_neighbor_feature(df)


VERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'FamilySize':
FamilySize
1     537
2     161
3     102
4      29
5      15
6      22
7      12
8       6
11      7
Name: count, dtype: int64

VERIFICACIÓN DE LA DISTRIBUCIÓN para 'FamilySize':
count    891.000000
mean       1.904602
std        1.613459
min        1.000000
25%        1.000000
50%        1.000000
75%        2.000000
max       11.000000
Name: FamilySize, dtype: float64

VERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'HasFamilyOnSameDeck':
HasFamilyOnSameDeck
0    773
1    118
Name: count, dtype: int64


### 12. VARIABLE: TicketPrefix (PREFIJO DEL TCIKET )

In [36]:
def ticket_prefix_feature(df):
    df['TicketPrefix'] = df['Ticket'].str.extract(r'([A-Za-z]+)\d*')
    # Avoid inplace=True
    df['TicketPrefix'] = df['TicketPrefix'].fillna('Unknown')
    # VERIFICACIÓN DE CALIDAD
    print("\nVERIFICACIÓN DE VALORES ÚNICOS Y CONTEO para 'TicketPrefix':")
    print(df['TicketPrefix'].value_counts())
    return df